论文部分内容阅读
互联网为我们提供了大量的资源,供用户查找各类信息。然而,如何才能从冗杂的Web页面中抽取出需要的信息已经成为多数研究者希望解决的问题。Internet本身具有的数据量大、结构迥异、内容变化多样等特点致使Web信息抽取的方法与传统的抽取方法大不相同。随着用户需求的不断增多,在近些年以来国内和国外也陆陆续续出现了很多种信息抽取的方法。本文针对互联网上煤矿安全事件信息的特点,提出了面向煤矿安全事件的Web信息抽取方法,为用户提供更加快速、准确的煤矿安全事件信息服务。首先,对Web页面清洗相关技术进行深入研究。页面清洗就是把Web网页源码进行整理,清洗掉网页中的一些噪音数据。通过对页面中噪音数据的特点进行分析,利用工具JTidy完成页面格式化。通过对页面内HTML标签解析,利用工具HTMLParser构造页面结构树,同时去掉一些噪音标签。其次,对页面主题提取方法进行研究,提出基于中介真值程度度量的主题提取算法。该算法就是通过对页面的主题特征进行分析,给出结构树的相关特性,然后在此基础上结合中介真值程度度量的相关理论,提取出页面的主题内容。此方法在一定程度上提高了网页中主题信息抽取的准确性。再次,对建立抽取规则的方法进行研究,改进了基于路径建立抽取规则的方法,将改进后的算法定义为基于特征比较法建立抽取规则的方法。该方法通过选取节点特征项,建立特征类,找到相似结点,在此基础上使用结合XSLT技术建立的抽取规则对相似结点的信息进行抽取。此方法增加了路径以外的其他特征,作为结点的特征,有利于增强抽取规则的健壮性,进一步提高抽取结果的准确性。然后,对Web信息抽取技术进行研究,对于煤矿安全事件多记录型网页,通过基于DOM的页面信息抽取算法进行抽取,并抽取到想要的记录正文,然后通过基于模板和归纳统计的方法对正文信息执行抽取操作。抽取完成后,把抽取到的结果展现给用户,并把抽取的数据存入到关系型数据库。最后,根据对以上相关方法的研究,设计并实现了面向煤矿安全事件的Web信息抽取系统。并将若干个煤矿安全事件相关网站在此系统上进行试验,试验证明了该系统的可行性,且试验结果说明本文设计的抽取系统对煤矿安全事件信息抽取具有较高的抽准率和抽全率。