基于页面模块识别的Web文章自动抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gx008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代以来,互联网技术快速发展,网页页面样式也越发多样。现时的网页中,充斥着大量的导航、广告等与页面主体内容无关的信息,这些信息和网页的主体信息混杂在一起,大大增加了用户正确定位网页有用信息的难度,导致目前只能采用全文检索的方式来查找所需信息,为了解决这个问题,本文做了以下工作:通过对大量Web文章页面的DOM树结构和可视化信息进行了分析,提出一种针对Web文章页面的基于DOM树结构和可视化信息的页面分块算法。该分块算法根据Web文章页面所特有的结构信息和可视化信息特点,以较小的粒度对页面的可视文本进行分块预处理,从而为页面主体文本的模块识别提供基本的处理单元。实验结果表明,这种分块算法为后续的Web文章正文识别提供了合适的基本处理单元,为准确识别文章正文提供了很好的支持。在页面分块的基础上,通过结构和可视化特征提取,提出了一种采用聚类算法和启发性规则的自动的Web文章正文识别方法,完成对Web文章正文的识别。实验结果表明,在对Web页面分块的基础上,这种识别方法拥有很高的性能。在成功识别Web文章正文的基础上,分析Web文章的标题、摘要、图片、插图、插图小标题和相关链接列表等Web文章辅助信息的视觉特征和结构特征,针对每一种辅助信息,分别提出了一种基于启发式规则的识别方法。实验结果表明,这些识别方法有良好的效果。在以上研究成果的基础上,构建了一个Web文章信息提取的原型系统,对Web文章的有效信息实现自动化提取。该系统为本文进行的各种实验研究提供了一个良好的平台,并为以后的相关研究提供支持。
其他文献
为了提高基于P2P网络的匿名通信技术中通道的稳定性,本文在P2P网络和Mix系统的基础上,提出了信誉度评价的改进方法,建立一套基于信誉度的P2P匿名通信模型,并建立了匿名通信原型系
随着社会发展、科技进步和社会对气象预报服务需求的增加,对天气预测的准确度和精细化程度要求越来越高。集成预报是把不同预报方法对同一要素的多种预报结果综合在一起,从而
不确定规划是目前人工智能研究领域的一个热点问题。基于模型检测的方法在处理许多实际的不确定规划问题上有很大的优势。在完全可观察(或部分可观察)条件下,对可达性目标作规划
近些年来,随着互联网技术及P2P技术的发展,基于P2P技术的VoD系统由于可以让用户根据自己的兴趣选择在视频的任何时刻进行观看得到了迅猛的发展。P2P网络中交互式视频点播的关键
程序调试是保障软件系统可靠性的重要手段。针对软件测试时检测到的错误,程序调试要求开发人员在充分理解软件系统结构和功能需求的基础上,能够高效地定位错误位置,并开展修复工
由于牛奶是国民的重要食物来源之一,因此与奶牛相关的研究一直受到高度重视。而高产与低产奶牛在体型结构上,特别是与乳房相关的体型结构方面有明显的差异,在经历了长期的研
网络文本信息飞速增长,对海量网络文本进行自动分类并从中找出我们所需要的信息是一项非常迫切的需求,然而,传统的全监督学习分类器要想有好的分类效果,首先需要人工标注数据,训练
随着信息处理技术与测绘技术的快速发展,数字矢量地图在地理信息系统、数字化城市和智能交通运输系统得到了广泛应用。数字矢量地图具有易编辑易传播的优点,极大方便了人们的日
布局问题(Packing问题),其研究背景包括印刷电路板(PCB)布局方案设计,航天器舱的布局方案设计,工厂机床摆放问题等。求解这些问题不仅要求待布物能放置在尽可能小的空间内,而且
作为计算机视觉研究领域里最热门和最有前景的识别任务之一,视频中识别人类活动的任务在过去的许多年来引起了研究人员的极大关注。不仅仅是因为这是一个人工视觉系统的基本能