网络表格扩展技术研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:tsy99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展使得网络上的数据量急速增加,几乎每一个被浏览的网页中都包含了信息丰富的HTML表格,称之为网络表格。用户通过搜索引擎查询并获取有用信息时,网络表格相对于文本等数据形式具有更好的结构化特性,可以使人们非常清晰直观地看到自己感兴趣的信息。网络表格扩展是根据已知信息去扩展与主列相关的其他属性列信息,满足用户整合结构化信息的需要。已有的表格扩展查询系统存在一定的局限性:一方面,这些系统主要针对由主列和待扩展列组成的实体-属性二元表进行单列扩展,将该算法用于多个待扩展列的表格时,多个二元表合并而成的结果容易出现实体不一致现象;另一方面,这些系统提供给用户的结果表多数是唯一的,当用户想要根据机器提供的多列扩展结果来检查数据源,辨别或手动修正一些错误信息时,唯一的结果表无法满足用户的筛选需求。针对以上问题,本文对网络表格扩展做了深入研究,具体工作如下:(1)为了避免不一致现象的发生,本文根据列重合度设计列映射算法,实现了基于列重合度的网络表格一致性扩展方法(Column-Overlap Consistent Augmentation,CCA)。CCA方法对查询表进行预处理,综合考虑各个属性列间以及各元组行之间的关系,首次提出一致性支持度的概念,并将一致性支持度应用于填值算法。相关实验表明,CCA方法在多列扩展问题上与现有方法相比有更高的精确度、覆盖率和一致性,以及更低的查询时间代价。CCA既能保证候选表的高支持度,又能使结果表中填值所使用的数据源数目最少,有效地避免了实体不一致问题。(2)为了满足用户的筛选需求,本文在CCA方法的基础上改进填值算法,设计并实现了网络表格的Top-k扩展方法(Top-k Augmentation of Web Table,TAT),提出Top-k支持度的概念,实现互斥型和迭代型Top-k扩展算法,根据用户需求迭代给出Top-k个多样化结果供用户筛选和修正。实验表明,TAT很好地实现了 Top-k结果表的展现,各个结果表的可靠性和结果集的多样性均呈现出理想水平。
其他文献
伴随着信息技术的快速发展,信息的安全问题日益突出,除了安全防范措施的不到位以外,现有安全防范技术的滞后性、被动性以及防外不防内的特性使得这些安全防范技术不能从根本
传统考试中主要有:教师出题、组卷,教师判卷和分数统计等工作,考生在考试中受时间和地点等诸多因素限制,而利用网络和数据库技术,在线考试已经逐渐成为一种发展趋势,它可以使
电气专业人士的日常工作繁琐而复杂,经常需要使用不同的仪器,而这些仪器通常都具有体积较大、携带不便、无自动数据处理能力等缺点。同时,他们也常常需要查询大量电学相关资
随着IT行业的兴盛和互联网技术的飞速发展,信息资源也在迅速、海量地增长。由于其中大部分的信息资源都以异构、动态的Web文本形式存在,因此如何在这巨大的数据海洋中快捷方
复杂网络研究作为一个新兴的学科方向,极大地吸引了来自不同学科研究人员的广泛关注,已成为学术界研究的一个热点。人们生活在一个充满着各种各样的复杂网络的世界中,这也使得研
Wine是一款优秀的开源软件,通过在Linux用户空间仿真Windows操作系统环境,使得Windows应用程序能够直接在Linux操作系统上安装和使用。Wine弥补了Linux操作系统上应用软件的
随着经济的快速发展,我国汽车保有量和汽车产量急剧增加,这种急剧扩张给汽车产品的品质带来巨大的挑战,因而车辆可靠性评估软件平台逐渐为国内外研究者所关注。车辆可靠性评
在无线传感器网络众多应用领域中,节点的位置信息是大多数应用的前提和基础,获得节点的位置信息是非常有必要的。因此,研究定位技术对整个传感器网络的发展乃至人类的发展都
当今,全世界范围内互联网业务的飞速发展,为人们带来了巨大的便利和无限的商机。云计算、移动互联网平台、无线通信系统的广泛应用正一点一点改变着我们的生活。而网络安全问
旅游作为一种缓解生活及工作压力的休闲方式,已经成为人们生活中必不可少的一部分。生活在信息时代的人们,在为旅游做准备时,会通过网络搜索相关信息,但是网络信息超载问题使得人