论文部分内容阅读
众包是一种采用分布式解决问题的模型,通过开放平台和一群未定义数量的用户来解决复杂问题。随着智能手机的迅速普及,众包已成为解决大规模应用的有效方法。任务发起者根据平台反馈的数据质量和提取的信息进行准确的决策。在众包中,任务的难度以及用户的专业知识和意愿会影响数据质量。特别是,具有不同时空背景和努力水平的用户可能会提交不同准确性的数据。此外,理性用户倾向于在策略上追求更高的效用来执行任务,这可能会降低数据质量。例如,在基于众包的应用中,由于用户的粗心,平台经常会收到低质量的数据。更有参与者通过拷贝别人的成果来完成任务,而不是独立地提交数据,如此低质量的提交将使得众包的质量降低。为了向任务发起者提供高精度数据,本文解决了在满足最小真值精度要求下完成所有任务的最大化社会福利问题。本文设计了一个保证质量水平的真实性激励机制IMC~2(Incentive Mechanism for Crowdsourcing with Copiers),包括真值发现阶段和反向拍卖阶段。在真值发现阶段,本文将用户间的依赖转换成值之间的依赖,基于用户间的相关性和准确性来估计每个任务的真值,提出了DATE(Dependence and Accuracy based Truth Estimation)算法。在反向拍卖阶段,将用户选择和激励问题抽象成SOAC(Social Optimization Accuracy Coverage)问题,并证明了SOAC问题是一个NP-hard问题,设计了一个贪心算法来选择获胜者并确定报酬。在计算用户独立性前过滤一部分相似的值,这样能更加精确地得到用户的准确率。因此在相同的系统模型上,本文进一步研究了基于语义分析的用户相关性的真值发现方法。本文基于历史任务的语料库来学习每个任务每个值的向量表示。本文使用离线状态下的神经网络模型BERT(Bidirectional Encoder Representations from Transformers)来学习信息间的相似度,在语义场景下构建内容向量并且使用自适应聚类算法KANN-DBSCAN(K-Average Nearest Neighbor Density-Based Spatial Clustering of Applications with Noise)来对内容向量进行分组。通过严格的理论分析和仿真实验证明,IMC~2满足了计算有效性、个体理性、真实性和保证的近似比。当众包系统中有拷贝者时,本文提出的真值发现方法在准确性方面有显著优势。此外,基于语义分析的用户相关性方法,可以允许用户上传文本数据并能更加精确的计算用户的准确性。