论文部分内容阅读
随着互联网的发展,网络信息呈爆炸式增长。由于众多镜像站点、转载网页、复制网页的存在,使网络中充斥着大量相似内容,这些内容降低搜索引擎结果的质量、浪费硬件存储资源、影响移动用户的使用体验。近年来移动互联网的发展,问题越加严重。针对目前在移动互联网相似性方面研究的不足,本课题集中于网页正文抽取技术和网页相似性计算。在网页正文抽取技术方面,首先比较了基于统计的网页正文抽取技术、基于视觉分块的网页正文抽取技术及其他网页正文抽取技术,然后本论文提出一种基于主题相似分块的网页正文抽取技术。在网页相似性计算方面,首先比较了基于向量的相似性技术、基于特征的相似性技术、基于网页文本结构的相似性技术和基于语义的相似性技术,然后提出一种基于特征词的网页相似性算法。基于主题相似分块的网页正文抽取技术以标题标签和分块内容的相似性为基础,通过构建网页树,抽取网页的正文内容。实验表明,该算法对复杂网页抽取准确率高。基于特征词的网页相似性算法首先提取网页特征词,然后利用局部敏感哈希、分块查找等技术,计算网页的相似性。实验表明,该算法提高了短文本网页的查全率和查准率,降低了复杂度,适合大规模数据应用。