基于用户行为分析的在线协作编辑质量控制研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:sky_bj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线协作编辑系统已然成为互联网个人用户和其他网站获取信息资料的-个重要来源,对此类信息源的参考和引用已经成为一种普遍趋势,并且这一趋势还在迅速而广泛地传播着。然而,由于在线协作编辑系统的开放性和包容性,其中的信息的生成模式是动态而善变的,因此很容易受到用户编辑行为的影响而降低其信息可靠性。考虑到在线协作编辑系统的信息质量和用户的编辑行为之间存在着极为密切的联系,越来越多的研究者开始关注用户行为模式的研究,希望通过找出协作编辑过程中用户行为的特征和规律并加以运用,实现对在线协作编辑系统信息质量的有效控制和管理。本文研究了在线协作编辑系统中能够决定其成果质量的人力资源要素以及相关的质量控制方法,包括:在线协作编辑系统成果质量的量化评估方法,在线协作编辑系统中的人力资源要素建模方法;人力资源投入与编辑成果质量之间的关系;在线协作编辑系统用户对观点分歧的处理机制以及建立共识的过程;协作编辑过程中用户行为模式的规律与特征;在线协作编辑系统中信息破坏行为的自动检测方法等。本文的具体研究内容和创新工作主要包括以下几个方面:1.本文提出了一套可行的评估方案来度量在线协作编辑系统中的人力资源投入以及协作编辑成果质量,并在此基础上分析和验证了与人力资源相关的三个要素与成果质量之间的制约关系。本文首先对在线协作编辑系统中与人力资源相关的协作团队规模、团队成员活跃度以及团队成员经验水平三个基本要素进行建模,并对这三者与编辑成果之间可能存在的正相关关系提出假设。然后通过对从目前运营得最为成功的两大在线协作编辑项目——维基百科和学术百科中采集的真实数据进行评估,验证了该假设的正确性,同时还发现:在上述三个人力资源要素之中,团队成员的经验水平决定了要协作完成高质量的编辑成果所需要投入的人力资源成本,反过来,足够大的协作团队规模和足够程度的团队成员的活跃度又可以弥补团队成员经验水平的不足。并且,由活跃度较高的成员组成的大规模协作团队比由经验充足但参与度较低的成员组成的小规模团队更有潜力创造出高质量的编辑成果。2.本文从内容演化的角度对在线协作编辑系统中的团队协作过程进行研究,发现了在这一过程中用户行为模式的一些特征与规律,分析了协作编辑过程中促成持有不同意见的用户消除分歧达成共识的关键因素,并讨论了这些关键因素对编辑成果质量的影响。为了便于分析,本文提出了三种可以模拟出协作团队成员所期望达成的共识内容的方法:(1)外部来源共识模拟;(2)均值融合共识模拟;(3)票选融合共识模拟。在与模拟共识进行对比的基础上,本文对用户的修改行为定义了一些新的特征值来衡量修改行为的结果与模拟出的近似共识之间的匹配程度,研究了采集到的数据集中词条文章的内容在用户的协作编辑之下逐步演化的过程,并从用户行为特征的角度分析了其中一些趋势产生的原因。分析结果表明,在线协作编辑系统的用户对自己参与协作产生的原创性内容的偏好和对协作团队内部共识的追求是使得协作编辑过程获得成功的关键。此外,在协作编辑过程中有两个因素是促成协作团队内部消除分歧达成共识的关键:一是团队内的多数成员都为达成共识做出积极贡献;二是多数成员对少数人的异见保持审慎的客观态度。3.针对在线协作编辑系统中的信息破坏行为,本文提出了一种基于用户修改行为贡献效率特征值的机器学习检测方法。通过对在线协作编辑系统中的用户修改行为进行观察不难发现,正常的修改行为都会试图推动文章内容朝着达到公认的共识的目标发展,而信息破坏行为则是反其道而行之。现有的对在线协作编辑系统中的信息破坏行为进行自动检测的方法往往在做语义分析时是对文章的历史版本全文计算统计特征,因而对修改幅度较大的显式信息破坏行为非常有效却难以发现那些对文章改动幅度很小的隐式信息破坏行为。与这些方法不同,本文根据上述观察结论针对用户的修改行为提出了一个新的特征值,贡献效率,该特征值可以度量修改行为在促进文章内容达到公认的共识标准方面的效率。在此基础上,本文将该特征值与其他基于统计的特征值结合起来对基于机器学习的分类器进行训练,构建了一个信息破坏行为自动检测系统。实验表明,通过引入用户修改行为的贡献效率特征值,基于机器学习的信息破坏行为检测系统的效率得到显著提高。
其他文献
纳米材料的优越性能不仅仅体现在它们有一个可控制的光学响应,更是能够将不同组分的材料结合在一起形成新的复合纳米结构。在纳米尺度下,金属表面等离激元共振能够诱导产生极大的局域电磁场增强,从而与其复合结构中的半导体或者有机分子发生强烈的相互作用,导致整个体系出现新奇的光学效应,对我们进一步理解光和物质相互作用有着重要的现实意义。在本论文中,我们对纳米金属表面等离激元与分子激子以及半导体激子相互作用体系中
核酸中含有大量不同的共价化学修饰,这些化学修饰碱基在真核生物细胞中发挥着各自的功能。在这之中,5-甲基胞嘧啶与N6-甲基腺苷分别作为DNA与RNA中的最丰富的表观遗传学修饰,在基因的表达及各种生物过程中发挥着重要调控作用。去甲基化现象以及氧化中间体的发现,进一步丰富了表观遗传学功能。本论文主要研究了两个部分:N6-甲基腺苷化学去甲基化研究以及利用化学探针检测5-醛基胞嘧啶。N6-甲基腺苷是广泛存在
该文聚焦于新时代高校信息类专业学生的培养探析,从目标导向出发,分析高校信息类专业学生的特点和培养目标,同时基于物理学中协同论理论,探求"三全育人—十大育人"协同发展的理论支撑,从学生工作视角下提出信息类专业学生培养的实现路径。
本文主要研究来源于流体动力学和稀薄气体动理学理论(kinetic theory)的两类非线性偏微分方程定解问题的整体适定性以及整体解大时间渐进行为的精细刻画,主要内容包括可压缩Navier-Stokes方程组在一维以及高维对称情形下大初值整体解的存在性及大时间行为,以及带摩擦外力的Boltzmann方程的软势情形在全局Maxwellian附近的整体解的构造.全文主要分为两大部分.第一部分我们研究可
解决某一具体领域问题通常难以完全依靠单一的知识源,而是会以多个知识源的协同为基础,这是因为有时一个知识源无法解决问题,而多个知识源共同协作能够提供适合的解决方案。因此要解决问题的领域专家就转而求助于将不同来源的相关知识进行集成,以构建一个能够解决具体应用问题的知识对象。知识集成的目标是生成一个全面的知识库,但是由于对知识源整体的集成会加剧在多个知识源之间实现互操作的复杂性,因此,为了在获得满足问题
自从Tim-Berners Lee提出Semantic Web之后,本体的研究逐渐引起了许多人的关注,并被应用到许多领域。在信息管理领域,由于信息的异质异构导致了“信息孤岛”的问题。针对这一问题,许多研究者都提出了不少解决方案,包括如数据联邦,中间件,数据仓库以及分布式数据库等方法,但都面临着无法很好地解决语义冲突的困境。由于本体能够清晰地定义概念之间的语义关系,并能被机器所理解,所以本体被广泛应
随着计算机技术的飞速发展和地理信息系统在地图制图领域中的广泛应用,对数字环境下地图综合自动化的需要越来越紧迫。地图自动综合是地图学与GIS(Geographic information system)领域的一个难题。一些复杂地图综合算子,如移位、典型化等的自动化程度仍然较低。尽管国内外学者对地图综合移位算法进行了长期不懈的探索,但目前仍存在诸多问题没得到有效解决,突出表现为以下几个方面:(a)移位
随着航天遥感技术的迅速发展,航天遥感图像已经广泛应用于气象预报、资源普查、环境监测、防灾减灾以及军事侦察等多个领域,在国民生产生活、国防安全保障中发挥着重要作用。图像处理技术是推动航天遥感迅速发展的关键技术之一,是提高遥感数据有效性和可解译性的有效手段,遥感图像处理技术已经成为了遥感科学与技术领域研究的前沿和热点。文章对涉及航天遥感图像去除冗余数据的若干算法进行了研究,着重研究了减少遥感数据量的压
互操作性,关联要因多维,约束情景复杂。对业务系统的互操作能力实施准确的分析与度量是一个挑战性难题,但却是非常必要的。目前,互操作性的研究范围主要集中于互操作性的定义、数据层的互操作性以及元数据层的互操作性,而模型层的部分语义互操作以及互操作能力度量仍具有较大的创新研究空间。业界存在多种业务模型,模型的定义、描述、结构、功能以及支持工具都存在差异;同时,对于互操作性的研究,业界主要关注于同构模型的语
本文研究运算器抵御硬件故障注入攻击的结构,在现有工作基础上研究密码协处理器的关键部件大素数模算术运算器的可检测硬件注入攻击的ASIC结构设计问题,并对相应的结构做了性能优化.大数模算术器件是许多公钥密码算法(如RSA和ECC)的核心部件,也是其中最耗时的部件.一直以来,大数模运算的快速实现和安全性是密码学领域的两大研究热点.其中,大数模运算的快速实现有相当详尽的研究,研究者们开发了大量的技术和算法