基于用户相关性的真值发现众包激励机制设计

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:caichengzyokokok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众包是一种采用分布式解决问题的模型,通过开放平台和一群未定义数量的用户来解决复杂问题。随着智能手机的迅速普及,众包已成为解决大规模应用的有效方法。任务发起者根据平台反馈的数据质量和提取的信息进行准确的决策。在众包中,任务的难度以及用户的专业知识和意愿会影响数据质量。特别是,具有不同时空背景和努力水平的用户可能会提交不同准确性的数据。此外,理性用户倾向于在策略上追求更高的效用来执行任务,这可能会降低数据质量。例如,在基于众包的应用中,由于用户的粗心,平台经常会收到低质量的数据。更有参与者通过拷贝别人的成果来完成任务,而不是独立地提交数据,如此低质量的提交将使得众包的质量降低。为了向任务发起者提供高精度数据,本文解决了在满足最小真值精度要求下完成所有任务的最大化社会福利问题。本文设计了一个保证质量水平的真实性激励机制IMC~2(Incentive Mechanism for Crowdsourcing with Copiers),包括真值发现阶段和反向拍卖阶段。在真值发现阶段,本文将用户间的依赖转换成值之间的依赖,基于用户间的相关性和准确性来估计每个任务的真值,提出了DATE(Dependence and Accuracy based Truth Estimation)算法。在反向拍卖阶段,将用户选择和激励问题抽象成SOAC(Social Optimization Accuracy Coverage)问题,并证明了SOAC问题是一个NP-hard问题,设计了一个贪心算法来选择获胜者并确定报酬。在计算用户独立性前过滤一部分相似的值,这样能更加精确地得到用户的准确率。因此在相同的系统模型上,本文进一步研究了基于语义分析的用户相关性的真值发现方法。本文基于历史任务的语料库来学习每个任务每个值的向量表示。本文使用离线状态下的神经网络模型BERT(Bidirectional Encoder Representations from Transformers)来学习信息间的相似度,在语义场景下构建内容向量并且使用自适应聚类算法KANN-DBSCAN(K-Average Nearest Neighbor Density-Based Spatial Clustering of Applications with Noise)来对内容向量进行分组。通过严格的理论分析和仿真实验证明,IMC~2满足了计算有效性、个体理性、真实性和保证的近似比。当众包系统中有拷贝者时,本文提出的真值发现方法在准确性方面有显著优势。此外,基于语义分析的用户相关性方法,可以允许用户上传文本数据并能更加精确的计算用户的准确性。
其他文献
文[1]给出了用C2R模型或C2GS2模型来判断决策单元的规模收益情况的定理,指出它有时失效.对DEA有效(C2GS2)的决策单元,本文用加性DEA模型来有效地判断其规模收益情况.
代谢综合征(MS)的诊断标准繁多,应用不同的诊断标准所统计出来的患病率差异很大,不利于对MS的防治工作.本研究应用最常用的3个标准对MS的患病率进行比较,以求找出适合中国人
红鱼洞水库位于四川省巴中市南江县,是该市首座大型水库,2008年列入国家"十一五规划",是渠江系列"抗洪防旱"水利建设工程中的重点工程之一。在施工过程中,建立高精度施工控制网至关重要,本文以红鱼洞水库枢纽的实际建设经验为例,重点阐述该项目枢纽区GPS施工控制网建立的要求、方法和过程,以及工作中的注意事项和体会,并借以说明如何提高控制网的精度进而满足工程施工的要求。
粮食生产预警系统是为了防止粮食生产运行偏离正常发展轨道或可能出现危机而建立的报警系统.本文从云南粮食生产的实际出发,运用预警的有关理论,进行粮食生产的经济预警研究,
在以文化人、以文育人视角下,中华优秀传统文化与高校思想政治教育融合存在认同偏低、传统缺失等问题,本文以东莞理工学院知行学院个案研究为基础,探索通过开设特色文化课程
中国癌症基金会主要通过参与中央财政转移支付项目和中央财政支持社会组织参与社会服务项目、举办癌症防治公益活动及科普宣传,以及开展癌症患者援助项目等方面推动我国癌症