基于Web的信息抽取技术研究

被引量 : 0次 | 上传用户:lah822900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。基于Web的信息抽取技术就是研究如何从这些Web源中抽取出用户感兴趣的信息,并把这些抽取出的信息表示成更具有语义,更为结构化的形式,以便加以利用。该技术起源于信息抽取技术,但由于Web信息的自身特点,该技术已经和传统的基于纯文本的信息抽取技术有了很大的不同。目前,大量Web信息被保存在网站的后台数据库中,这些信息在网页上的显示有一些共同的特征,即通常把数据库中的数据插入到网页的一个模板中,其表现形式就是网页的主体部分有多个局部信息块组成,局部信息块有多个数据项构成。这类网页被称为数据密集型(data-rich)网页,由于该类网页富含大量有价值的信息,因此,研究如何对这类网页进行Web信息抽取有重大的意义和实用价值。对于上述数据密集型网页,本文采用基于XML的相关技术来解决Web信息的抽取问题。其解决方案是:首先获得目标网页,并将该HTML文档以文档对象模型DOM为中介,转换为形式上的XML文档,然后根据这类网页的特征,把该网页中信息的布局视为基于行和列的二维表形式,用户根据自身需求,通过与系统交互,系统半自动地生成基于行和相关列的XPath位置路径表达式作为抽取规则,根据抽取规则定位到待抽取的信息,从而实现信息的准确抽取,抽取的结果用XML来表示。本文开发了一个原型系统,系统能够完成对数据密集型网页和新闻网页的信息抽取,实验表明本文的系统具有一定的实用价值。
其他文献
会计监督一直是会计领域研究的重点,长期以来受到各国学者的关注,但是长期、热烈的关注始终没能为实际问题的解决提供根本性的帮助,会计失真现象仍然存在。回顾以往的研究,我
本文以企业的中层管理人员为研究对象,对企业的中层管理人员的绩效考核的方法进行了研究。在中层管理人员的工作特点进行研究的基础上,提出了用分类绩效考核的方法对企业的中
商业银行信用证是银行界与商业界为解决国际商事交易各方当事人的利益冲突而发展起来的国际结算工具,是国际金融发展史上的一个伟大的创造。由于商业银行信用证较好的解决了
人参是我国传统的中药药材,皂苷和氨基酸是其重要的组成部分。试验选取28日龄健康AA肉鸡96只,随机分成4组,每组3个重复,每个重复8只。对照组饲喂基础日粮,试验Ⅰ、Ⅱ、Ⅲ组分
文化是人类社会性活动的产物,是国家和民族凝聚力、创造力的重要源泉,文化对一个国家的发展和繁荣具有至关重要的作用。随着新闻媒介的发展,公众接触媒介时间的增多,新闻媒介
“电影作者论”的确立可以说是电影艺术发展成熟的标志之一,他滥觞于“新浪潮”年代的法国,作为一种理论批评体系与实践创作原则影响深远,长盛不衰,至今仍受到各国电影批评家
目的:羧甲基壳聚糖(Carboxymethyl chitosan,CM-CTS)是迄今为止所报道的600多种甲壳素衍生物中,研究最多的一种水溶性壳聚糖衍生物。研究证明,CM-CTS具有良好的生物相容性、
随着我国城市规模的不断扩大,人口数量的增加,城市居民的出行越来越频繁,日益严重的交通问题严重影响了城市的发展进程,迫切需要我们找到解决交通问题特别是客运交通问题的方
中国有着悠久的调味品生产历史,调味品也是人们日常生活中的必备品之一。经济的发展带动了调味品行业的发展,民众对高品质的调味品需求也日益增加,调味品包装也越来越受到重
拉萨是西藏自治区的首府,是藏族文明的主要发源地之一,历来是西藏政治、经济、文化、宗教的中心,也是西藏主要的交通枢纽,是我国链接西南各国的重要门户。因此,拉萨具有自身