Web信息抽取规则的设计和实现

被引量 : 0次 | 上传用户:zhou0168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web成为目前全球规模最大的信息源,包含了大量有价值的信息。Web信息抽取技术研究如何从网页上精确获取为用户或应用感兴趣的信息。现有的Web信息抽取研究大都集中于对已有网页的自动化分析和数据抽取,忽略了信息抽取过程中复杂的网页浏览导航过程,以及抽取后数据的集成处理问题。针对现有研究工作的不足,本文首先研究全过程化Web信息抽取模型,该模型将综合考虑网页浏览导航、网页数据抽取及数据集成三个完整处理过程。在网页浏览导航阶段,本文研究提出一种网页浏览导航动作模型,该模型能刻画用户在网页上交互和浏览跳转的动作和行为,然后在网页数据抽取运行时,通过回放这种网页交互和浏览跳转动作,即可自动完成抽取过程中相关网页的连接跳转。在网页数据抽取阶段,本文将研究一种能综合处理各种复杂格式网页数据记录的数据抽取模型,可解决非规整数据网页和多种复杂的规则数据网页的数据记录抽取处理。在数据集成阶段,我们将研究采用基于XML的层次式目标数据模型,可允许用户定义各种复杂的目标数据实体结构,并通过一定的数据转换和映射方法,将从网页上抽取出来的原始数据集成为所指定的目标数据记录。基于以上全过程的Web信息抽取模型,本文研究实现了一种具有网页自动浏览导航、数据抽取和数据集成一体化处理能力的Web信息抽取规则语言,用以刻画网页浏览导航逻辑、网页数据抽取逻辑、以及数据集成逻辑在网页数据抽取模型中,我们概括归纳了非规则记录和规则记录类型,其中规则记录类型又分为基于行、基于列和基于网格的记录类型。进一步,本文研究能综合处理以上多种网页数据记录类型的抽取规则语言。结构抽取规则得到的数据记录往往包含一些粒度较大的半结构化或非结构化文本数据,常常需要进行细粒度的数据元素过滤和抽取。因此,在结构抽取规则之外,本文研究实现了一种基于小样本学习的自动化文本抽取规则生成方法,该方法研究采用了一种文本多序列比对方法;为了降低多序列比对的时间复杂度,本文提出了一种核心序列比对算法;在此基础上,进一步引入了信息熵来度量比对结果的一致性,以此来识别数据栏和模板栏,经过后续处理步骤最终得到文本抽取规则。这种方法不需要任何人工标注,减少了用户负担,提高了处理效率。另外,为了提高抽取规则生成的自动化程度,本文利用Web数据记录挖掘的结果来辅助生成抽取规则。为了实现这种自动化的规则生成,本文研究提出一个算法来从自动挖掘的结果学习出记录的特征,并把这些特征作为抽取规则的相关属性值。
其他文献
花卉是人们普遍喜爱的一种特殊产品,花卉产业作为新世纪的“朝阳产业”,是一项集经济、社会、生态效益于一体的绿色产业。近二十年来,我国花卉产业有了快速的发展,已经成为世
民间艺术作为传统文化的表现形式,彰显着人类的审美特点和精神品质。将民间艺术应用于儿童美术教育,能够激发儿童学习美术知识的兴趣,助力儿童审美意识的养成,还可以提升儿童
<正>制定医院文化建设战略,引入企业形象识别(corporate identity,CI)系统,构建和谐优美的医院环境,不断强化医院的价值观念和员工的行为规范,提升医院的执行力,培养和造就一
近年来,随着医疗卫生事业的发展,医患纠纷这个老生常谈的问题又重新引起社会关注。目前医患矛盾更为突出,医患纠纷更加严重。这就需要新的工作方法的介入,因而社会工作被引入到了
随着技术进步和手机深入生活,“垃圾短信”已成为困扰中国用户并影响全社会的严重问题。“垃圾短信”不仅对公民生活安宁和其他权利造成损害,更成为不当竞争、传递不良信息以及
<正>七堇年,原名赵勤,1986年出生于四川泸州。学生时代的她成绩优秀,高二时参加全国新概念作文大赛获得一等奖,开始以"七堇年"为笔名发表作品。2006年,她写下第一部长篇小说
随着知识和科技的高速发展,人才在饭店的可持续发展中发挥着越来越重要的作用,它已经成为饭店在激烈的竞争环境中求得生存和发展的关键因素。饭店为了更好地实现人才和岗位的有
奉祀的有那些山神及地方保护神傩祭的组织者、领祭人与祭仪热贡及其民族·热贡农区傩祭及其民间信仰
贸易开放与经济增长的关系一直是经济学家的重点研究领域之一,经济学者们从多个角度运用不同的方法和数据等对此进行了深入的理论探讨和实证分析。其中从贸易开放度影响经济
<正> 科学技术革命和社会革命社会改造和科学技术革命——这是异常活跃的、飞速发展的现代历史过程的两个相互密切联系和相互制约的方面。只有把社会革命和科学技术革命两者