论文部分内容阅读
互联网的诞生和发展,深刻的改变了人们的生活,激发并促进了人类和社会的进化。互联网上资源为用户提供大量的信息,大大方便信息的获取和整合,但是这种传播的便捷性同时也大大降低转载复制的成本,于是这些海量信息中就会存在大量的重复,给用户带来过多无意义的信息和麻烦。因此,如何通过相似检索来获取真正有价值的信息成为目前研究的一个热点。
相似度算法问题是信息检索领域的一个重要的研究内容。提高相似网页的检测对于搜索引擎的抓取、索引、存储和查询都有很大的意义。但是经典的文本相似度算法在大规模数据集上检测相似网页时,时间和空间复杂度都太高。本文通过对HTML网页进行解析,采用基于文档对象模型和基于视觉特征的方法抽取网页正文。从基于语法的文本相似度研究出发,采用标引化、去除停用词、抽取词干等文本词汇分析方法和基于向量空间统计词频、N-gram、抽取最长句子等文本特征选择方法,之后对抽取的特征进行MD5和Rabin指纹签名。
本文的创新点有两个方面:
第一,提出基于标引词编辑距离的相似度度量方法,发明编辑比例EditRate和编辑相似度EditSim两个计算公式,并实现算法用于机器标注数据集,将该度量方法作为其他相似度算法的基线。
第二,提出大规模网页相似度算法FusionSim。FusionSim算法是在SimHash算法的基础上,融合词频统计、N-gram、抽取最长句子等一系列算法来度量网页文档的相似度。FusionSim除了特征选择的多样化,还考虑特征在文本中的位置信息和特征之间的相互关系。通过不同的特征权重设置,可以调整FusionSim度量的严格度。此外,FusionSim算法还有很高可扩展性,算法设计和程序实现都可以很方便的加入新的相似度算法。通过在文本和网页数据集上的实验,FusionSim的查准率和查全率都优于SimHash算法。