Web数据融合中网页清洗相关技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:hfzwl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中存在大量的重复网页和网页噪声,用户可能需要花费比预期更长时间以获取所需信息。利用Web数据融合给用户呈现所需信息之前,需要对这些内容进行清洗。利用网页代码的层次结构以及网页正文内容的特征信息,本文采用基于DOM结构树和词叶率(WLR值)的方法对网页噪声进行清洗,所有的操作都在DOM树上完成,保留Web正文完整的结构信息。在节点的统计信息中只计算所包含的叶子节点数(所有的文本内容都是包含在叶子节点中),统计信息更精确。在重复网页的识别过程中,为提高特征项对全文的表征性,采用“先分割,再提取”的特征提取方法,在原有的经典分割方法—TSF的基础上加以改进,根据句子相似性矩阵,动态指定块大小,自动识别主题边界,不依赖用户的参与,将网页文本分割成局部连贯的子主题片段。从每个主题片段提取关键句作为片段的特征项,特征项在一定程度上遵循子主题的变化,能更完整表示一个网页的内容。本文中借鉴simHash指纹的生成思路为每个主题片段生成一个特征指纹,根据指纹之间的汉明距离判断片段之间的相似性,进行检测之前利用主题片段数和文本长度对网页库进行过滤,减少需要进行检索的网页数,借鉴原有的分组检索方法,对片段指纹进行分级检索,提高检索的效率。使用本文方法对网页进行处理,可以提高网页噪声和重复网页清洗的准确率和召回率,以避免对无关内容的操作和网页的重复处理,可以节约存储空间,提高检索性能,减少后续处理过程中的时间和空间开销,提高整个Web融合系统的效率和准确率。
其他文献
MIMO(MultipleInputMultipleOutput)技术突破了原有SISO(SingleInputSingleOutput)系统的容量极限,可以成倍地提高频谱效率,已经成为下一代移动通信系统物理层的核心技术。针对
在实际雷达项目中,由于功能比较复杂,数据采集和数据处理往往分开,通常有多个板卡同时工作,板卡之间需要实时传输数据,这时FPDP就应运而生了。PCI总线结构具有高性能、低成本和软
随着军事和工业上的发展需要,低对比度数字图像的增强越来越成为数字图像处理中的一个重要领域,传统的增强方法分为频域法和空域法两大类,其中空域法的代表为直方图增强法,这
期刊
本文根据船舶电站供电系统的基本特点,以其为研究对象,结合相关电力系统中较为成熟的分析理论,对船舶电站供电系统的运行稳定性进行了分析。  为了使船舶供电系统能够提供良好
期刊
在无线信道中,可靠、高速的传输数据是无线通信的目标和要求。而OFDM技术具有抗多径时延、抗信道衰落、频谱利用率高和硬件实现简单的特点,近年来获得了广泛的应用,并且有望成为
期刊
期刊
期刊