面向煤矿安全事件的Web信息抽取技术研究与应用

被引量 : 2次 | 上传用户:nanshixujie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网为我们提供了大量的资源,供用户查找各类信息。然而,如何才能从冗杂的Web页面中抽取出需要的信息已经成为多数研究者希望解决的问题。Internet本身具有的数据量大、结构迥异、内容变化多样等特点致使Web信息抽取的方法与传统的抽取方法大不相同。随着用户需求的不断增多,在近些年以来国内和国外也陆陆续续出现了很多种信息抽取的方法。本文针对互联网上煤矿安全事件信息的特点,提出了面向煤矿安全事件的Web信息抽取方法,为用户提供更加快速、准确的煤矿安全事件信息服务。首先,对Web页面清洗相关技术进行深入研究。页面清洗就是把Web网页源码进行整理,清洗掉网页中的一些噪音数据。通过对页面中噪音数据的特点进行分析,利用工具JTidy完成页面格式化。通过对页面内HTML标签解析,利用工具HTMLParser构造页面结构树,同时去掉一些噪音标签。其次,对页面主题提取方法进行研究,提出基于中介真值程度度量的主题提取算法。该算法就是通过对页面的主题特征进行分析,给出结构树的相关特性,然后在此基础上结合中介真值程度度量的相关理论,提取出页面的主题内容。此方法在一定程度上提高了网页中主题信息抽取的准确性。再次,对建立抽取规则的方法进行研究,改进了基于路径建立抽取规则的方法,将改进后的算法定义为基于特征比较法建立抽取规则的方法。该方法通过选取节点特征项,建立特征类,找到相似结点,在此基础上使用结合XSLT技术建立的抽取规则对相似结点的信息进行抽取。此方法增加了路径以外的其他特征,作为结点的特征,有利于增强抽取规则的健壮性,进一步提高抽取结果的准确性。然后,对Web信息抽取技术进行研究,对于煤矿安全事件多记录型网页,通过基于DOM的页面信息抽取算法进行抽取,并抽取到想要的记录正文,然后通过基于模板和归纳统计的方法对正文信息执行抽取操作。抽取完成后,把抽取到的结果展现给用户,并把抽取的数据存入到关系型数据库。最后,根据对以上相关方法的研究,设计并实现了面向煤矿安全事件的Web信息抽取系统。并将若干个煤矿安全事件相关网站在此系统上进行试验,试验证明了该系统的可行性,且试验结果说明本文设计的抽取系统对煤矿安全事件信息抽取具有较高的抽准率和抽全率。
其他文献
人力资源是支撑经济与社会发展的首要资源。人才,是推动地方经济发展的重要因素。尤其是高层次人才,是加快区域转型升级的核心动力,是保持竞争优势的关键所在。随着国家“千
锅炉烟尘排放环保标准日益严格,对锅炉除尘器的除尘效率要求越来越高。简要介绍烟气除尘技术,对比分析目前燃煤锅炉应用的除尘技术及除尘器,提出除尘器选型的原则。
在银行业市场竞争日益激烈的环境下,国内各家商业银行的产品和业务逐渐趋于同质化,单纯从规模扩张或是产品创新角度已无法满足银行业务发展和利润增长的要求。因此,优化内部
作为国家财政收入的主要收入来源,税收在国家机器的正常运行中发挥着至关重要的作用,但由于涉及面和覆盖面广、信息流通速度慢、管理手段落后、采用人工进行税收一直消耗着大
<正>当人们在外出差,或者出门旅游的时候,经常有这样的烦恼,酒店提供的水壶里有水垢、异味,难以使用。尤其是在国外旅游的时候,酒店没有热水提供很不习惯,这时候折叠电热水壶
期刊
第一条为进一步规范进出口代理业务、打击和防范各种走私违规、骗汇、逃套汇和骗税行为,防止出卖或变相出卖进出口经营权和许可证,特制定本规定。第二条本规定适用于外贸企业
贿赂犯罪不是中国特色,而是普遍存在于世界各个国家和地区。《联合国反腐败公约》规定了污点证人豁免制度,作为最早的缔约国之一,虽然我国刑法中明确规定对如实供述、自首、
分析并了解ICU护士和患者家属沟通的障碍因素,把握与患者家属沟通的技巧,积极主动地与患者家属加强沟通,可以大大缓解ICU护士和患者家属之间的矛盾,减少护患纠纷的发生,使患
目的:探讨使用便携式微量输液泵在肿瘤化疗中持续输注氟尿嘧啶的应用效果。方法:选取我科2006年3月-2008年7月96例癌症化疗病人按入院先后顺序分为对照组和实验组,每组48例。对
中国经济经历了三十多年高速发展,随之而来的是能源的极度消耗和环境污染的加剧,单位GDP能耗达到发达国家的三倍。造成以上现象的最重要的原因是能源总体利用率不高,能源系统