论文部分内容阅读
20世纪90年代以来,互联网技术快速发展,网页页面样式也越发多样。现时的网页中,充斥着大量的导航、广告等与页面主体内容无关的信息,这些信息和网页的主体信息混杂在一起,大大增加了用户正确定位网页有用信息的难度,导致目前只能采用全文检索的方式来查找所需信息,为了解决这个问题,本文做了以下工作:通过对大量Web文章页面的DOM树结构和可视化信息进行了分析,提出一种针对Web文章页面的基于DOM树结构和可视化信息的页面分块算法。该分块算法根据Web文章页面所特有的结构信息和可视化信息特点,以较小的粒度对页面的可视文本进行分块预处理,从而为页面主体文本的模块识别提供基本的处理单元。实验结果表明,这种分块算法为后续的Web文章正文识别提供了合适的基本处理单元,为准确识别文章正文提供了很好的支持。在页面分块的基础上,通过结构和可视化特征提取,提出了一种采用聚类算法和启发性规则的自动的Web文章正文识别方法,完成对Web文章正文的识别。实验结果表明,在对Web页面分块的基础上,这种识别方法拥有很高的性能。在成功识别Web文章正文的基础上,分析Web文章的标题、摘要、图片、插图、插图小标题和相关链接列表等Web文章辅助信息的视觉特征和结构特征,针对每一种辅助信息,分别提出了一种基于启发式规则的识别方法。实验结果表明,这些识别方法有良好的效果。在以上研究成果的基础上,构建了一个Web文章信息提取的原型系统,对Web文章的有效信息实现自动化提取。该系统为本文进行的各种实验研究提供了一个良好的平台,并为以后的相关研究提供支持。