论文部分内容阅读
网页分类可在较大程度上解决信息杂乱无章问题。由于网页中含有较多噪音信息以及网页的特征提取结果影响到网页分类性能,因此,如何降低网页噪音,并改进网页内容的特征提取过程,对网页分类具有重要意义,已成为网页分类中的研究热点。首先,STU(Semantic Textual Unit)-DOM实现的网页提取未能判断不含超级链接的网页噪音,以及未能处理正文在DIV标签中的情况,从而造成网页去噪效果不理想。本文在STU-DOM实现网页内容提取的基础上进行了扩展,考虑了网页正文信息放在TABLE、DIV标签中的情况,同时通过计算标题与结点词共现频率以及文本间的相似度实现网页正文内容的提取。在计算标题与结点词共现频率时,对于大于给定阈值的结点直接保留,反之,则需要计算当前的TABLE或DIV标签中已提取的内容与即将提取结点的相似度,相似度值大于给定阈值,则提取当前结点作为网页正文,否则进行探测。根据探测的结果决定是否继续提取当前TABLE或DIV标签中的网页内容。其次,针对现有的特征提取算法中的频率差法在特征提取时把不具备类别鉴别能力的特征项赋较高RFD(Relative Frequency Difference)值的不足,对频率差考虑分段情况,另一改进是考虑特征项的代表性和鉴别性之和的绝对值情况,对改进的算法通过分类器进行了验证,取得了较好的分类性能。最后,本文在开源的bot.jar包的基础上扩展了爬虫系统的功能,通过计算待爬行URL与主题的相关度,把满足相关度阈值的URL加入等待队列,以及计算正在爬行的网页正文内容与体育类别特征向量的相似度,下载满足相似度阈值的网页,保存到本地磁盘上。本论文实现的爬虫系统,主要下载以体育为主题的网页,形成一个用于体育分类的测试语料集,通过对分类器进行训练,确定实现最优下载主题网页的阈值。本文所做的网页去噪及特征提取的研究,经过分类器测试,表明了算法的有效性。