【摘 要】
:
随着网络技术的飞速发展以及智能设备的广泛使用,数据以前所未有的速度生成和创建。在大数据给人们带来巨大便利的同时,也可以发现不同的数据源对同一实体提供了相互冲突的描述。这些冲突往往是由于输入错误、数据过时、记录丢失等原因造成的,在实际应用中可能会造成巨大的损害和经济损失。对一个大规模数据集,手工确定数据的真实性是不现实的,而真值发现方法能从多个数据源中找到最符合现实的真值来解决冲突。近年来,研究人员
论文部分内容阅读
随着网络技术的飞速发展以及智能设备的广泛使用,数据以前所未有的速度生成和创建。在大数据给人们带来巨大便利的同时,也可以发现不同的数据源对同一实体提供了相互冲突的描述。这些冲突往往是由于输入错误、数据过时、记录丢失等原因造成的,在实际应用中可能会造成巨大的损害和经济损失。对一个大规模数据集,手工确定数据的真实性是不现实的,而真值发现方法能从多个数据源中找到最符合现实的真值来解决冲突。近年来,研究人员考虑不同场景、不同影响因素、不同的实体真值和数据源可信性计算方法对真值发现进行研究,提出多种算法。然而当前真值发现算通常假设实体某个属性只有一个真值,多真值发现的研究相对较少,不过在现实中,实体具有多个真值的情况更为常见。针对多值实体:首先,本文提出了一个多真值发现算法。该算法将多真值发现转化为一个函数优化问题,其目标是实体的真值集应该与数据源对该实体提供的所有值集之间相似度最高。根据目标函数对真值的选择,设计了一个迭代算法来联合推导数据源的可信度和实体的真值集。同时在计算描述值置信度时,提出一种非对称的支持度计算方法,结合相似值的支持对其置信度进行修正。其次,本文提出一个现有多真值发现算法的改进模型。针对现有的多真值发现算法经常忽略实体真值数量估计的问题,该模型将现有的多真值发现算法分为真值计算和真值预测两部分,并将真值数量的探测结合到现有的多真值发现过程中去。同时在计算实体真值数量时,提出一种对称的相似度计算方法,结合相似数值的支持对其真值数量的概率进行修正。它是一个适用于任何多真值发现方法的通用模型,只要它能够产生数据源和描述值的评估结果。最后,本文通过3个真实世界的数据集的2组实验分别对本文提出的多真值发现算法和现有多真值发现算法的改进模型进行评估,验证了本文所提出的多真值发现算法和现有多真值发现算法的改进模型的有效性,以及结合不同因素影响的准确性。同时对本文所提算法和模型进行对比并给出使用推荐。
其他文献
高维特征的数据分析是当前数据挖掘和计算机视觉研究的热点,然而高维数据的维度灾难导致数据分析过程较为困难,且分析的结果往往不可靠。子空间学习方法通过将高维的人脸图像投影到其低维的子空间,最大程度保留高维数据之间的有效信息。将数据的低维子空间信息存储在表示矩阵中,用于进一步的数据分析和挖掘,可以获得较好的分类性能和计算复杂度。然而,传统子空间的学习方法无法避免数据噪声和异常值的影响,如何设计一个高性能
虚拟现实技术是计算机图形学中重要的研究领域,而针对风、云、雷电等自然界现象模拟技术的研究在虚拟场景中占据了很大的研究范围。动态三维云模拟通常包含建模与渲染两方面,
移动边缘计算是指在靠近用户端的移动网络边缘提供IT服务环境和云计算能力,从而创造出高性能、低延迟与高带宽的网络服务环境,极大提高了用户的网络体验。但是,由于移动边缘计算平台将部分网络服务功能下沉至网络边缘,在网络边缘可以进行计算卸载,从而导致计费功能难以实现。针对这一不足之处,本文研究了面向无线异构网络中策略用户的两个无线运营商针对移动边缘计算系统中业务数据本地分流的部分进行计费的问题。运营商需要
在宽带移动网络高速发展的推动下,实现能够覆盖全球的宽带通信系统势在必行。地面LTE可以为人们提供高质量的通信服务,但是因为部署难度,一些偏远地区的用户还无法享受LTE服务,而低轨卫星通信服务具有覆盖全球各地的优势,因此低轨卫星通信和LTE的融合是目前的研究热点。但是将地面LTE技术应用到低轨卫星通信中也会面临很多困难,卫星信道的大频偏、低信噪比等特点会对信号的正确接收产生很大影响。在LTE系统中,
高校是培养未来科技人才的摇篮,科学家精神培养是引育大学生献身科学事业的重要基石。其中,胸怀天下、心系苍生的爱国精神引领学生立志报国与服务人民;勇攀高峰、敢为人先的
关联规则挖掘作为数据挖掘的一个重要分支,用于发现数据当中隐藏的联系,为决策提供支持,在web挖掘、推荐系统、故障诊断等诸多领域有着广泛的应用。关联规则挖掘最核心、最耗时的步骤是频繁模式的获取。目前国内外已经开展了大量的研究来加快频繁模式的挖掘速度,但是随着大数据时代的到来,数据量越来越大,目前的频繁模式挖掘算法仍然无法满足日益增长的对挖掘算法时效性的要求。如何提升大数据环境下的频繁模式挖掘效率仍然
信息隐藏是一门将秘密信息隐蔽地嵌入到文本、图像、视频、网页等载体中的技术。为了不引起对手的怀疑,通信双方通常使用错综复杂的社交网络发送包含秘密信息的载体。然而在
电离层通过影响电波传播给人类活动带来诸多不便,相关研究十分丰富。电离层电子浓度总含量(Total Electron Content,TEC)作为研究电离层形态和结构的重要参量,是日地空间物理
从五线谱的发明、乐器的演奏,到现代的MIDI数字音乐创作,音乐工具不再局限于传统的乐器或其他发声体,数字信号的普及加之软硬件的推广,让数字音乐走进了人们的世界。时至今日
字典学习是机器学习及相关研究领域的重要研究内容之一,在图像重建、图像降噪、图像分割等领域中有广泛的应用,受到研究者的关注。传统的字典学习侧重考虑关注子字典表示能力的稀疏表示学习(Sparse Representation,SR)、所有类字典表示的协同表示学习(Collaborative Representation,CR),而考虑降维、低秩、不一致等多重约束下的字典学习、多视图字典学习相对较少。为