Web信息抽取技术研究

被引量 : 0次 | 上传用户:ghjkevin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,成为我们工作和生活中不可缺少的一部分。Web数据的主题广泛而且内容多样,用户可以在因特网上找到几乎任何信息。Web上具有各种类型的数据,如结构化的表格、半结构化的网页、无结构的文本以及多媒体文件等,Web上的信息是异构的、包含噪音数据。如何自动从这些网站的有关页面抽取有用的信息,避免噪音数据的干扰,为用户提供一个方便快捷和高效的信息查询平台,是一个值得研究的课题,Web信息抽取技术应运而生。Web信息抽取技术的核心是构造包装器,即编写抽取规则。目前,已经产生了各种各样的方法来生成抽取规则,但这些方法有其不同的局限性,在精确度和通用性方面难以达到很高的要求。随着互联网的发展,XML技术的优势逐渐显示出来。XML数据的独立性把内容及其表示法分离开来,XML文档的结构化而非格式化本质使之很容易由数据库应用程序处理,本文在此基础上提出基于XML的Web信息抽取方法。利用XML相关的标准技术来实现Web信息抽取,将源HTML文档中用户感兴趣的信息抽取出来,快速获取所需信息,采用该技术的信息抽取系统易于维护且具良好的可扩展性。具体创新有以下几点:(1)充分利用了XSLT在解决文档转换问题上的优势,使其与XPath相结合生成抽取规则。并使用XSLT语言描述抽取规则,使得抽取模式更容易达成统一。使用此方法生成的规则易于修改和维护,降低了信息抽取的难度并提高了抽取效率。(2)设计并实现了一种基于DOM树结构的XPath生成算法,深度优先遍历DOM树并快速定位到待抽取信息点,有效解决了待抽取信息点定位难的问题。在多个网站上的实验结果表明,本文提出的Web信息抽取方法能够有效地抽取相似网页中的数据记录,数据记录的抽取准确率达到90%左右,能够较好地满足现实应用中对数据获取精确度的要求。
其他文献
马克思主义认为,人是一切社会关系的总和。某种意义上对于个人来说,这种社会关系包括个人在社会中所处的位置,个人与国家,个人与社会,个人与家庭,个人与他人以及个人与个人自
目的:本研究旨在探讨含中药骨金散血清对成骨细胞的增殖及OPG/RANKL系统的影响。方法:6月龄雌性大鼠48只,随机分为假手术组、模型组、骨金散低剂量组和骨金散高剂量组,每组12
文章通过文献资料法、访谈法对杨式太极拳的发展、传承进行论述。杨式太极拳的发展经历了发展期与普及期,杨式太极拳通过家庭、学校和社会多方面进行传承。研究希望能对杨式
文化差异视阈下,商标与广告的翻译是以文化为单位,可以说是文化层面上的解码与重组。而不是词汇层面的照搬原文。笔者通过研究承载文化传递功能的商标与广告译语的特点、原则
国货和国货运动对民国时期的广告产生了较大的影响。本文以1912——1919年《申报》广告的抽样调查为基础,分析了"国货"在商品广告、医药广告和外商广告中的体现。文章认为,国
据世界卫生组织的一项调查研究表明,抑郁症已经成为中国第二大疾病,每年有20万人以自杀方式结束自己的生命,其中80%的自杀者患有抑郁症。而大学生又是抑郁症的高发人群。因此
目的 目前大多数研究者认为 ,环境因素在胃癌的发病中起主要作用 ,其中饮食因素与胃癌的关系尤为重要。研究海岛地区居民饮食因素与胃癌发病的关系 ,为采取有效的防治措施提
真空绝热板的绝热效果取决于多方面因素,分析了真空绝热板的隔热机理及影响其绝热性能的因素,并提出了提高真空绝热板绝热效果的途径。
<正>近年来,我国的消费品市场日趋多元化,也给我国的消费者带来更多的消费选择。整体厨房在我国虽然只有不到十年的历史,而我国整体厨房行业已进入了百花齐放百家争鸣的局面,
目的:探讨心率变异性与冠心病充血性心力衰竭患者的相关性,以期为临床治疗提供数据支持。方法:将我院于2013-01~2014-01收治的60例冠心病充血性心力衰竭患者作为研究对象,并