论文部分内容阅读
互联网中存在大量的重复网页和网页噪声,用户可能需要花费比预期更长时间以获取所需信息。利用Web数据融合给用户呈现所需信息之前,需要对这些内容进行清洗。利用网页代码的层次结构以及网页正文内容的特征信息,本文采用基于DOM结构树和词叶率(WLR值)的方法对网页噪声进行清洗,所有的操作都在DOM树上完成,保留Web正文完整的结构信息。在节点的统计信息中只计算所包含的叶子节点数(所有的文本内容都是包含在叶子节点中),统计信息更精确。在重复网页的识别过程中,为提高特征项对全文的表征性,采用“先分割,再提取”的特征提取方法,在原有的经典分割方法—TSF的基础上加以改进,根据句子相似性矩阵,动态指定块大小,自动识别主题边界,不依赖用户的参与,将网页文本分割成局部连贯的子主题片段。从每个主题片段提取关键句作为片段的特征项,特征项在一定程度上遵循子主题的变化,能更完整表示一个网页的内容。本文中借鉴simHash指纹的生成思路为每个主题片段生成一个特征指纹,根据指纹之间的汉明距离判断片段之间的相似性,进行检测之前利用主题片段数和文本长度对网页库进行过滤,减少需要进行检索的网页数,借鉴原有的分组检索方法,对片段指纹进行分级检索,提高检索的效率。使用本文方法对网页进行处理,可以提高网页噪声和重复网页清洗的准确率和召回率,以避免对无关内容的操作和网页的重复处理,可以节约存储空间,提高检索性能,减少后续处理过程中的时间和空间开销,提高整个Web融合系统的效率和准确率。