基于历史数据的志愿者地理信息数据质量生成机制研究

来源 :国防科学技术大学 | 被引量 : 2次 | 上传用户:feng_lingpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web 2.0时代打破了消费者与生产者之间的壁垒,为解决传统数据生产封闭、昂贵、更新较慢的问题提供了新的可能性。随着大数据时代的到来,既有的数据生产应用模式已难以满足日新月异的数据需求。以维基百科为代表的众包模式在若干领域已经取得了成功,构建出一个个良性发展的开放的知识生产社区。在地理信息领域中,志愿者地理信息采用开放式的编辑模式,允许普通用户在一定的规则内自由地上传和编辑数据,即由“志愿者”生产和维护地理信息。志愿者地理信息的原理与维基百科类似,即利用各用户在细分领域(区域)的专精,结合系统的协作、监督与纠错机制,不断扩充数据集和提高质量。志愿者地理信息着眼于利用新的技术手段打破既有数据壁垒,有望满足新的数据需求,推动地理空间大数据领域向前发展。为了替代或补充传统地理数据生产,志愿者地理信息的数据质量必须得到认真地考量。尽管许多研究已经从事实上证明了志愿者地理信息可以具有很高的质量,但均受困于有限的时空范围和巨大的地区差异性。究其根本,由于志愿者地理信息的质量生成机制一直未能得到充分确认,所有关于数据质量的实证研究都只能是局部和片面的。本文以志愿者地理信息中最具代表性的OpenStreetMap项目为研究对象,结合质量研究和贡献者研究这两个本领域的主要研究方向,通过分析贡献历史来分析志愿者地理信息的数据质量生成机制,阐释数据质量如何在项目的发展过程中得到保证。论文主要包含以下几部分内容。(1)提出了志愿者地理信息中数据演化与贡献行为的时空模型,为该领域相关构建了坚实的理论基础;设计实现了OpenStreetMa 历史数据通用处理工具,对比以往工具有明显优势。传统的地理信息是静态的,更新一般随着地物本身的变化进行,频度较低且不透明。而以OpenStreetMap为代表的志愿者地理信息一直处于可见的高速变化当中。这变化既包含地物自身的演化过程,也包含在社区努力下数据不断富集与演化的过程。与此同时,社区结构与贡献者行为也在时空中变迁,与数据的演化紧密交互。这种时间-空间的动态过程折射出志愿者地理信息的本质,也是解释这一新型地理数据生产模式中数据质量如何生成的关键所在。最近的研究越来越多地采用历史贡献数据,却受限于数据规模过大,数据格式不友好,时空数据具有本质复杂性等问题。本文基于时间地理学定义了一个OpenStreetMap历史数据的时空模型,用以建模、分析和探讨这一过程,并在此基础上实现了一套工具集,以便相关研究能高效地建模并生成自己想要的结果,避免重复劳作。(2)定量化地分析了贡献不平衡性的基本特征、时空规律与内在机理,拓展了贡献者和社区分析的广度与深度志愿者地理信息不断扩张的规模挑战着人们的认知,贡献不平衡性就是其中最重要的问题之一。贡献不平衡性指的是绝大部分数据来自于极小部分的贡献者,而绝大多数贡献者总共只负责一小部分数据。这一现象对于理解数据从何而来和项目如何发展至关重要。许多研究发现了贡献不平衡性,但并没有将其放在整个项目的演化当中进项全面和深入的讨论。本文回答如下问题:OpenStreetMap中贡献的不平衡性程度如何、又如何随时间改变?哪类贡献者对这种趋势起到了决定性的作用,是“沉默的大多数”还是“发声的少数”?本文使用基尼系数和洛伦兹曲线来量化不平衡性,设计了基于分位数的分类策略来考察社区的结构,并使用秩和检验来分析生产率的改变。(3)基于贡献历史推断主要贡献者的专业度,重新审视了志愿者地理信息的数据是来自专业用户还是业余用户这一久被忽视的问题,对相关研究领域的基本假设进行了重估。既有研究往往将志愿者地理信息考虑为业余爱好者的产物。有些研究者发现了社区中的异构性和人员背景的多样性,但仍囿于社区中大部分是业余爱好者的事实,未能辨明数据究竟来自于专业还是业余用户这一至关重要的问题。本文针对主要贡献者进行讨论分析,设计了一个基于贝叶斯法则的逻辑推断方法,并围绕实践、技能与动机定义了一系列指标和行为,揭示了长久以来掩盖在长尾分布的噪声中的事实,即贡献了绝大多数数据的贡献者很可能是专业用户。(4)结合数据演化的特点,分析了主要贡献者的偏好、变迁及其影响。首次对贡献偏好进行了大规模的统计分析,将研究拓展到时间维,并对现象之下的内在结构和影响进行了深入讨论。主要贡献者的偏好决定了社区贡献的风向。多数贡献者在位置精度,几何精度,精细度,或属性精度等方面的偏好自然会使数据在某些方面获得较高的质量。贡献者的偏好变迁规律对理解数据质量的演化进程至关重要。既有研究往往止步于发现贡献者存在偏好这一现象,未能对其细节和意义进行深入探讨。本文使用熵和一系列统计方法,结合数据演化的特征揭示了主要贡献者中偏好的变迁规律与其对数据质 量生成的影响。本文继而用关联分析的方法探讨了社区偏好变迁的来源,发现这变迁主要来自偏好不同的贡献者的持续加入。
其他文献
目的:规范破损药品处理流程,缩短破损药品处理周期,提高工作效率。方法:运用品管圈(QCC)手法,分析我院破损药品处理流程效率不高的原因并制订相应的改进措施,评价品管圈活动
<正>在当前开展的党的群众路线教育实践活动中,农发行总行投资部不断加强制度建设、作风建设,将深入基层、走进群众固化为党员干部的常态行为,听取群众的意见、了解群众的要
本文从城乡居民消费结构在支出顺序、支出具体内容和消费倾向及消费弹性之间存在的差异等方面阐述了我国城乡居民消费结构差异的现状,指出收入差距、消费观念和消费环境的差
历史课对地理知识及能力的运用⊙张书林历史事件发生的一个最重要因素就是它离不开一定的地点和地理环境,因此,历史教学就与地理教学结下了不解之缘,地理科中的一些知识和能力必
<正>打造公安消防铁军,是新时期消防部队推进消防事业发展进步的创新之举,是全面提升消防部队战斗力的强警之策,是新时期履行新使命和消防队伍长远发展的必由之路。作为承担
在一系列引人注目的干部人事制度改革中,竞争上岗已成为各级党政机关选人用人的重要方式。2000年,中共中央《深化干部人事制度改革纲要》把竞争上岗作为人事制度改革的重要内容
作为新兴的旅游产品,会展旅游已成为国内旅游业重要的客源市场和争相竞争的目标市场。而未来会展旅游市场的竞争将更多地表现为品牌竞争,要在竞争中取胜,就要走品牌的道路。
借助3Dmine软件建立了刚果(金)某铜钴矿钻孔数据库,进行了样品组合,对原始样品和组合样进行了统计分析。构建了矿区地表、初步境界和矿体三维模型,利用实体模型约束建立了品
目前电子商务呈井喷式发展,电子商务人才需求缺口大,然而电子商务就业率低下,企业当对当前高职院校输送的毕业生质量不满意。高职院校如何培养受企业欢迎的电子商务人才,我们
新时代下,加强青年理想信念教育越发的重要,习总书记曾多次在不同的场合,以问题意识为导向,运用各种思维,就其问题做过各种论述。本文通过对习近平关于青年理想信念教育思想