论文部分内容阅读
互联网的快速发展使得网络上的数据量急速增加,几乎每一个被浏览的网页中都包含了信息丰富的HTML表格,称之为网络表格。用户通过搜索引擎查询并获取有用信息时,网络表格相对于文本等数据形式具有更好的结构化特性,可以使人们非常清晰直观地看到自己感兴趣的信息。网络表格扩展是根据已知信息去扩展与主列相关的其他属性列信息,满足用户整合结构化信息的需要。已有的表格扩展查询系统存在一定的局限性:一方面,这些系统主要针对由主列和待扩展列组成的实体-属性二元表进行单列扩展,将该算法用于多个待扩展列的表格时,多个二元表合并而成的结果容易出现实体不一致现象;另一方面,这些系统提供给用户的结果表多数是唯一的,当用户想要根据机器提供的多列扩展结果来检查数据源,辨别或手动修正一些错误信息时,唯一的结果表无法满足用户的筛选需求。针对以上问题,本文对网络表格扩展做了深入研究,具体工作如下:(1)为了避免不一致现象的发生,本文根据列重合度设计列映射算法,实现了基于列重合度的网络表格一致性扩展方法(Column-Overlap Consistent Augmentation,CCA)。CCA方法对查询表进行预处理,综合考虑各个属性列间以及各元组行之间的关系,首次提出一致性支持度的概念,并将一致性支持度应用于填值算法。相关实验表明,CCA方法在多列扩展问题上与现有方法相比有更高的精确度、覆盖率和一致性,以及更低的查询时间代价。CCA既能保证候选表的高支持度,又能使结果表中填值所使用的数据源数目最少,有效地避免了实体不一致问题。(2)为了满足用户的筛选需求,本文在CCA方法的基础上改进填值算法,设计并实现了网络表格的Top-k扩展方法(Top-k Augmentation of Web Table,TAT),提出Top-k支持度的概念,实现互斥型和迭代型Top-k扩展算法,根据用户需求迭代给出Top-k个多样化结果供用户筛选和修正。实验表明,TAT很好地实现了 Top-k结果表的展现,各个结果表的可靠性和结果集的多样性均呈现出理想水平。