精确Web信息抽取集成模型与关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:guw2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息量急剧增长,如何能方便有效地从大量Web网页中获取准确有用的信息是人们目前的迫切需求,Web信息抽取正是为满足这一需求而出现的研究领域。Web信息抽取技术已经有10多年的研究历史并已取得了较大的技术进展。尽管如此,目前已有的工作大都局限于某个局部处理阶段或技术,在完整过程Web信息抽取模型和综合抽取集成处理技术等方面缺少系统完整的模型研究,在基本模型研究方面的不足制约了理想的Web信息抽取技术和系统的研究和开发,所研究的技术难以形成完整的和实际可用的系统。大多数现有的研究工作、尤其是自动化的技术方法研究,仅仅停留在对已获取网页的数据抽取处理技术上,忽略了深度网页访问时的用户交互性和数据动态性,缺少对抽取过程中深度网页自动浏览导航和获取技术的研究。同时,大多数自动化方法虽然可以提高自动化程度,但缺少抽取数据的结构语义集成处理能力,且数据抽取精确度不够高。基于用户交互的半自动抽取规则生成技术虽然实现较高的数据抽取精确度,但与自动化方法相比,又存在自动化程度不高、用户负担较重的缺陷。面对数据抽取精确度和处理效率两者间的矛盾,目前还缺少能同时兼顾两者的综合处理技术和方法。本文在总结现有相关研究工作的基础上,分析了当前研究和系统存在的不足。针对现有技术存在的诸多不足,本文进行了五个方面的主要研究工作。第一,针对目前缺少系统完整模型研究的现状,本文首先进行了相关的基本模型的研究。首先研究提出了一个包括网页浏览导航、原始数据抽取、以及数据语义化集成三阶段完整Web信息抽取的过程模型,以及面向复杂应用处理的抽取集成数据模型。为了解决数据抽取精确度和抽取处理的自动化的矛盾,本文研究并提出了一个抽取规则生成综合处理方法和模型,允许将自动化数据分析抽取方法和基于用户交互的半自动化精确信息抽取方法相结合,在保证数据抽取精确性的同时,尽量提高抽取处理的自动化程度。为了能够研究实现完整可用的精确Web信息抽取技术和系统,本文研究了完整过程Web信息抽取集成综合处理模型,包括多页面复杂结构数据抽取集成综合模型,完整过程Web信息抽取包装器等模型。第二,针对目前Web信息抽取领域缺少网页浏览导航和获取技术研究的现状,本文进行了深度网页自动浏览导航技术研究,研究提出一种面向Web信息抽取的深度网页浏览导航通用模型,主要包括交互和浏览导航动作模型、以及复杂结构网页链接关系模型;并基于浏览导航模型研究设计了基于XML的浏览导航语言。第三,基于基本模型,为了提供强有力的数据抽取逻辑表达能力,论文研究设计了多功能化综合规则模型和规则体系,研究设计了结构和文本两类基本规则,提供各种粒度数据元素的定位、抽取、细粒度过滤、抽取异常处理等各种功能规则;在此基础上,为了提供强有力的数据抽取描述机制,研究设计了基于XML的、适合于自动化结构分析和用户交互规则生成的抽取规则描述语言。第四,在综合规则模型和体系研究基础上,本文进一步研究设计了抽取规则生成技术和方法,对于非规整数据页面,研究使用了基于用户交互的半自动化抽取规则生成方法;对于规整数据页面,利用页面自动结构分析技术,将自动分析结构快速自动转换为统一的抽取规则;同时,为了克服用户手工编写细粒度文本数据抽取正则表达式规则的繁琐和困难,本文研究设计了基于小样学习的自动化文本规则生成技术。最后,本文设计并构建了一个原型的Web信息抽取系统WEBINEX,并给出了用户使用的过程示例。初步试验结果说明,本文的研究工作基本达到了预期的效果。
其他文献
国有企业在建立完善财务管理体系的基础上,应当实行全面预算管理,加强企业资金集中管理工作的力度,才能确保企业在激烈的市场竞争中始终占据有利的位置.但是由于很多国有企业
期刊
随着信息技术及计算机技术的发展,大数据技术在更多的领域开始应用,该技术的应用对各个行业来说都提高了业务的范围和工作效率.本文以大数据为背景 对企业财务管理进行概述,
石油行业价格逐年下降,石油企业面临现金流紧张困境,财务绩效不容乐观,需进一步加强现金流管理工作.基于此,文章以大型石油企业财务报告为样本数据,通过多元回归分析方法探究
疾控机构财务管理是疾控机构管理的重要组成部分,必须适应疾控机构的长远发展.本分分析了疾控机构财务管理存在的主要问题,并提出了改进的途径和方法,以期能够为做好此类工作
内部审计质量控制是科研院所内部审计作用充分发挥的前提,也是科研院所审计工作效率、工作水平提升的关键.因此,文章以科研院所内部审计质量控制为研究对象,阐述了科研院所内
随着人类社会的进步和科技水平的提高,在生产和生活的多种领域产生的数据越来越多形成了海量数据,而这些海量数据的背后往往隐藏着行业的重要规则,因此要挖掘出这些重要的规
我国市场经济的发展导致循环经济越来越重要,笔者在本文对循环经济视角下国有企业成本管理进行进一步的探讨,希望对促进我国经济的发展,可以起到有利的作用.
不测风云掠巴蜀,惊天横祸袭汶川。“5·12”四川发生的特大地震,举国震惊,世人瞩目。根据中央军委和胡主席的命令,济南军区45000余名官兵疾赴灾区,执行抗震救灾任务。为及时
句法分析是自然语言处理的一个关键技术,它对于语义分析、机器翻译、信息检索和自动文摘等有着极其重要的意义。所谓句法分析就是指对句子中词语的结构和语法功能进行分析,其
论文是科研活动的重要基础资源。电子化的论文资源分散于各种在线文献数据库中,它们的检索界面和显示结果各不相同,不利于科研人员高效地获取所需的论文,也不利于科研团队积累和