网页去噪与特征提取算法的研究及实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zfhtang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页分类可在较大程度上解决信息杂乱无章问题。由于网页中含有较多噪音信息以及网页的特征提取结果影响到网页分类性能,因此,如何降低网页噪音,并改进网页内容的特征提取过程,对网页分类具有重要意义,已成为网页分类中的研究热点。首先,STU(Semantic Textual Unit)-DOM实现的网页提取未能判断不含超级链接的网页噪音,以及未能处理正文在DIV标签中的情况,从而造成网页去噪效果不理想。本文在STU-DOM实现网页内容提取的基础上进行了扩展,考虑了网页正文信息放在TABLE、DIV标签中的情况,同时通过计算标题与结点词共现频率以及文本间的相似度实现网页正文内容的提取。在计算标题与结点词共现频率时,对于大于给定阈值的结点直接保留,反之,则需要计算当前的TABLE或DIV标签中已提取的内容与即将提取结点的相似度,相似度值大于给定阈值,则提取当前结点作为网页正文,否则进行探测。根据探测的结果决定是否继续提取当前TABLE或DIV标签中的网页内容。其次,针对现有的特征提取算法中的频率差法在特征提取时把不具备类别鉴别能力的特征项赋较高RFD(Relative Frequency Difference)值的不足,对频率差考虑分段情况,另一改进是考虑特征项的代表性和鉴别性之和的绝对值情况,对改进的算法通过分类器进行了验证,取得了较好的分类性能。最后,本文在开源的bot.jar包的基础上扩展了爬虫系统的功能,通过计算待爬行URL与主题的相关度,把满足相关度阈值的URL加入等待队列,以及计算正在爬行的网页正文内容与体育类别特征向量的相似度,下载满足相似度阈值的网页,保存到本地磁盘上。本论文实现的爬虫系统,主要下载以体育为主题的网页,形成一个用于体育分类的测试语料集,通过对分类器进行训练,确定实现最优下载主题网页的阈值。本文所做的网页去噪及特征提取的研究,经过分类器测试,表明了算法的有效性。
其他文献
古汉字图像识别是模式识别的一个重要研究领域,鉴于古汉字识别流程具有多过程、多约束等特点,并且流程中各过程之间相互关联而容易陷入局部最优,导致识别效率不高。而支持向
经过三十多年的发展,对多目标进化算法的研究已经取得了较多相对成熟的研究成果。然而,在实际应用中,很多问题十分复杂,优化的目标维数很高,因此,越来越多的研究学者把目光投
图像融合本质上是对多幅源图像所包含的互补信息和冗余信息按一定的规则或算法进行运算处理,获得比任何单一数据更精确、更丰富的信息,生成一幅具有新的空间、波谱、时间特性
随着互联网和无线通信网络的不断发展,流媒体得到了越来越广泛的应用。目前实时流媒体业务在传输层大多数都使用UDP协议,随着大量流媒体业务涌入网络,UDP流在网络中所占的通
DNA(Deoxyribonucleic acid)计算是一种模拟生物分子结构并借助于分子生物技术进行计算的新方法。目前DNA计算还处于起步阶段,本身还有很多理论和实际问题需要解决。遗传算法
学位
自古以来,气象科学的时效性和准确性影响到人类生产生活的方方面面,决定着社会的发展和稳定。随着时代的进步,人类对于气象科学的需求不断提升,但是某些方法或多或少存在着不
’网格变形是三维模型处理领域中的重要组成部分,它是近几年来计算机图形学中的研究热点之一,很多研究成果已经得到了广泛的应用,如动画制作,影视广告,以及计算可视化等领域
随着电子产品的日益普及和飞速发展,各种电子设备与系统对电源的要求越来越苛刻。开关型DC/DC变换器凭借其效率高、输出功率稳定、纹波较小、集成度高等优点,广泛应用于各类便携式电子设备。如今,开关电源正朝着高转换效率、小体积、高可靠性、模块化和集成化方向发展。本文首先介绍了DC/DC变换器和线性稳压电源LDO的基本原理,深入研究了Buck型DC/DC变换器的相关技术,分析了DC/DC变换器中的功率损耗
大型浮式起重机(简称浮吊)作为特殊工程船舶,在海洋石油开发、大型海上工程、沿海风电设备安装和海难救助等作业中得到广泛运用。但由于大型浮吊海上施工工况复杂,气候环境恶