Web数据融合中网页清洗相关技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户：hfzwl

【摘要】

：

互联网中存在大量的重复网页和网页噪声,用户可能需要花费比预期更长时间以获取所需信息。利用Web数据融合给用户呈现所需信息之前,需要对这些内容进行清洗。利用网页代码的

【作者】

：

贺又林

【机构】

：

中南大学

【出处】

：

中南大学

【发表日期】

：

2014年期

【关键词】

：

网页清洗词叶率重复网页主题分割分级检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网中存在大量的重复网页和网页噪声,用户可能需要花费比预期更长时间以获取所需信息。利用Web数据融合给用户呈现所需信息之前,需要对这些内容进行清洗。利用网页代码的层次结构以及网页正文内容的特征信息,本文采用基于DOM结构树和词叶率(WLR值)的方法对网页噪声进行清洗,所有的操作都在DOM树上完成,保留Web正文完整的结构信息。在节点的统计信息中只计算所包含的叶子节点数(所有的文本内容都是包含在叶子节点中),统计信息更精确。在重复网页的识别过程中,为提高特征项对全文的表征性,采用“先分割,再提取”的特征提取方法,在原有的经典分割方法—TSF的基础上加以改进,根据句子相似性矩阵,动态指定块大小,自动识别主题边界,不依赖用户的参与,将网页文本分割成局部连贯的子主题片段。从每个主题片段提取关键句作为片段的特征项,特征项在一定程度上遵循子主题的变化,能更完整表示一个网页的内容。本文中借鉴simHash指纹的生成思路为每个主题片段生成一个特征指纹,根据指纹之间的汉明距离判断片段之间的相似性,进行检测之前利用主题片段数和文本长度对网页库进行过滤,减少需要进行检索的网页数,借鉴原有的分组检索方法,对片段指纹进行分级检索,提高检索的效率。使用本文方法对网页进行处理,可以提高网页噪声和重复网页清洗的准确率和召回率,以避免对无关内容的操作和网页的重复处理,可以节约存储空间,提高检索性能,减少后续处理过程中的时间和空间开销,提高整个Web融合系统的效率和准确率。

其他文献

MIMO系统信道盲估计研究

MIMO(MultipleInputMultipleOutput)技术突破了原有SISO(SingleInputSingleOutput)系统的容量极限，可以成倍地提高频谱效率，已经成为下一代移动通信系统物理层的核心技术。针对

学位

多入多出系统空时编码空时分组码信道估计

基于PCI总线的FPDP数据传输卡的研究

在实际雷达项目中，由于功能比较复杂，数据采集和数据处理往往分开，通常有多个板卡同时工作，板卡之间需要实时传输数据，这时FPDP就应运而生了。PCI总线结构具有高性能、低成本和软

学位

PCI总线FPDP总线驱动程序WinDriver

一种基于小波神经网络的低对比度图像增强方法

随着军事和工业上的发展需要,低对比度数字图像的增强越来越成为数字图像处理中的一个重要领域,传统的增强方法分为频域法和空域法两大类,其中空域法的代表为直方图增强法,这

学位