论文部分内容阅读
本文通过分析新浪、搜狐、网易、腾讯、百度、中国新闻网、中华网、21CN网这八大网站中的噪音数据特点和它所产生的影响,并利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法和内嵌式元素提取法,可用于网页正文的自动提取。当然,这两种方法对于XHTML和XML也是可行的。为简便起见,本文在下面的全部内容中,将省略对XHTML和XML的重复说明。本文的研究内容及成果如下:①在分析网页中与网页正文内容相关和无关的文字链接和图像链接的基础上,结合HTML标签及其内容,提出了与网页正文内容无关的链接判断模型。②本文综合分析了大量的新闻网页中图像标签的特点,在统计的基础上得出了与网页正文内容相关和无关图像的较准确范围。③分析传统的DOM树、静态正则表达式等提取网页正文的技术之后,本文提出了区域分块的概念、确定网页正文标题位置的相似率,并在此基础上,进一步提出了基于区域分块的HTML标签的提取网页正文内容的两种方法:基于区域分块的HTML元素删除法和元素内嵌式提取法。④采用八大网站的新闻网页作为测试集,针对本文提出的两种网页正文提取方法,做了相应的测试。将本文中的两种网页正文提取方法和传统的方法做了比较,结果表明,文中的两种方法都能比传统方法更好地实现网页正文内容提取。综上所述:本文提出的区域分块的HTML元素内嵌式提取法和区域分块的元素删除法,在维持网页结构和内容不变的情况下,能够较准确地提取出HTML文档的主题内容,而不依赖于源网页的结构,是一种自动、可靠和通用的方法。由于本方法基于HTML规范,提取后的网页内容和结构与源网页一致,有很高的可扩展性。在技术实现中,通过与网页采集程序结合,对HTML文档进行预处理,提取出主题内容,提高了检索效率和查准率。该方法因可以较好地剔除广告和无关图片等信息而具有可观的应用参考价值,既可满足PDA和手机用户的即时访问需求,又可应用于信息检索领域的自动文摘和自动分类系统。