论文部分内容阅读
Web成为目前全球规模最大的信息源,包含了大量有价值的信息。Web信息抽取技术研究如何从网页上精确获取为用户或应用感兴趣的信息。现有的Web信息抽取研究大都集中于对已有网页的自动化分析和数据抽取,忽略了信息抽取过程中复杂的网页浏览导航过程,以及抽取后数据的集成处理问题。针对现有研究工作的不足,本文首先研究全过程化Web信息抽取模型,该模型将综合考虑网页浏览导航、网页数据抽取及数据集成三个完整处理过程。在网页浏览导航阶段,本文研究提出一种网页浏览导航动作模型,该模型能刻画用户在网页上交互和浏览跳转的动作和行为,然后在网页数据抽取运行时,通过回放这种网页交互和浏览跳转动作,即可自动完成抽取过程中相关网页的连接跳转。在网页数据抽取阶段,本文将研究一种能综合处理各种复杂格式网页数据记录的数据抽取模型,可解决非规整数据网页和多种复杂的规则数据网页的数据记录抽取处理。在数据集成阶段,我们将研究采用基于XML的层次式目标数据模型,可允许用户定义各种复杂的目标数据实体结构,并通过一定的数据转换和映射方法,将从网页上抽取出来的原始数据集成为所指定的目标数据记录。基于以上全过程的Web信息抽取模型,本文研究实现了一种具有网页自动浏览导航、数据抽取和数据集成一体化处理能力的Web信息抽取规则语言,用以刻画网页浏览导航逻辑、网页数据抽取逻辑、以及数据集成逻辑在网页数据抽取模型中,我们概括归纳了非规则记录和规则记录类型,其中规则记录类型又分为基于行、基于列和基于网格的记录类型。进一步,本文研究能综合处理以上多种网页数据记录类型的抽取规则语言。结构抽取规则得到的数据记录往往包含一些粒度较大的半结构化或非结构化文本数据,常常需要进行细粒度的数据元素过滤和抽取。因此,在结构抽取规则之外,本文研究实现了一种基于小样本学习的自动化文本抽取规则生成方法,该方法研究采用了一种文本多序列比对方法;为了降低多序列比对的时间复杂度,本文提出了一种核心序列比对算法;在此基础上,进一步引入了信息熵来度量比对结果的一致性,以此来识别数据栏和模板栏,经过后续处理步骤最终得到文本抽取规则。这种方法不需要任何人工标注,减少了用户负担,提高了处理效率。另外,为了提高抽取规则生成的自动化程度,本文利用Web数据记录挖掘的结果来辅助生成抽取规则。为了实现这种自动化的规则生成,本文研究提出一个算法来从自动挖掘的结果学习出记录的特征,并把这些特征作为抽取规则的相关属性值。