半结构化网页的信息抽取技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:xiaosa12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网的迅猛发展,网络已经成为人们发布和获取信息的一个重要平台。目前,大部分网页都是通过服务器根据请求从后台数据库中查询相关数据,然后展示到一个列表页面当中。这些页面一般都是由特定的入口查询获得的,而且网页中的数据很难被其它应用程序直接利用。因此如何自动抽取这些页面中的重要信息就变得非常重要。介绍了网页信息抽取技术的概念,要解决的主要问题以及相关技术,分析了常用的网页信息抽取算法及优缺点。针对现有方法对主数据区域的定位不准确的问题,将最大扇出子树法、最大内容量增大法和最大标记量法三种启发式规则相结合,定位网页的主数据区域。在数据记录分离的过程中,现有方法需要对所有子树进行相似度判断,算法效率较低,针对这一问题,提出了一种基于树编辑距离的聚类算法,增加了聚类算法,减少了子树的比较次数,提高了算法效率。同时采用树编辑距离表示子树之间的相似度,更符合网页的层次结构,算法准确率更高。聚类后得到数据记录的候选分割方案,给出了类之间相似度的计算公式,获得最高相似度的分割方案即为数据记录的最佳切分方法。最后采用了星比对算法,对数据记录的属性进行抽取。实验表明,本文方法的自动化程度较高,并且具有较高的效率,数据记录抽取和属性抽取都较为准确。
其他文献
在现今流行的视频压缩标准中,H.264/AVC因其优秀的编码压缩比和高图像质量受到了各界的广泛关注。但是,H.264的高计算复杂度也使其在高清上的应用受阻,现有的基于纯CPU的串行
物联网是新一代信息技术的重要组成部分。通俗地讲,物联网就是一个“物物相连的互联网”,它是在互联网的基础上,引入射频识别技术(RFID Radio Frequency Identification),并
网络管理在很多方面需要识别网络流的应用类型,如流量监控、网络服务质量保障等。而现今像P2P那样的网络新业务飞速发展,使应用识别的重要性和难度不断增大。在当今主要的识
地图在日常生活中有着广泛的应用。然而,几乎所有的地图应用程序,都以同一种绘制方式来绘制地图中的所有景物,这经常造成信息的过载。本文提出了一个全新的面向用户的2.5维focus
针对大规模单源应用层组播,为了进一步提高数据分发的效率、网络资源的利用率以及缩小传输时延,本论文提出了一种基于虚拟P2SP (Peer to Server & Peer)的应用层混合组播模型
作为一类经典的组合优化问题,最大流问题有着40多年的研究历史和广泛的应用领域,成为研究各种实际网络系统的重要手段,也存在着丰富的研究成果。随着研究和应用的深入,人们发现不
不管是在科学研究领域还是在工程实践上,最优化问题都已成为非常重要的课题之一。其中,仅有一个目标函数的最优化问题被称为单目标优化问题,而现实世界中的最优化问题一般需
合成孔径雷达(SAR)具有全天候、全天时、分辨率高、可侧视成像等优点,得到了广泛的应用。但是由于其回波成像机理,相干斑的产生是不可避免的。为了能更加有效地进行SAR图像的
分形是自然界中的几何学,分形图有多种多样,本论文所研究的装饰图案实际上也是分形图的一种。装饰图案在人类生活中有着举足轻重的作用,是人们智慧的结晶。随着人类社会的发展,装
近几年面向服务计算(SOC)的出现为分布式计算和电子商务提供了有效的解决方案,因此受到了很多企业的关注。服务是异构的、自治的、可计算的,尽管它们可能基于不同的平台或者