大规模网页相似度算法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:zhanfeifan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的诞生和发展,深刻的改变了人们的生活,激发并促进了人类和社会的进化。互联网上资源为用户提供大量的信息,大大方便信息的获取和整合,但是这种传播的便捷性同时也大大降低转载复制的成本,于是这些海量信息中就会存在大量的重复,给用户带来过多无意义的信息和麻烦。因此,如何通过相似检索来获取真正有价值的信息成为目前研究的一个热点。 相似度算法问题是信息检索领域的一个重要的研究内容。提高相似网页的检测对于搜索引擎的抓取、索引、存储和查询都有很大的意义。但是经典的文本相似度算法在大规模数据集上检测相似网页时,时间和空间复杂度都太高。本文通过对HTML网页进行解析,采用基于文档对象模型和基于视觉特征的方法抽取网页正文。从基于语法的文本相似度研究出发,采用标引化、去除停用词、抽取词干等文本词汇分析方法和基于向量空间统计词频、N-gram、抽取最长句子等文本特征选择方法,之后对抽取的特征进行MD5和Rabin指纹签名。 本文的创新点有两个方面: 第一,提出基于标引词编辑距离的相似度度量方法,发明编辑比例EditRate和编辑相似度EditSim两个计算公式,并实现算法用于机器标注数据集,将该度量方法作为其他相似度算法的基线。 第二,提出大规模网页相似度算法FusionSim。FusionSim算法是在SimHash算法的基础上,融合词频统计、N-gram、抽取最长句子等一系列算法来度量网页文档的相似度。FusionSim除了特征选择的多样化,还考虑特征在文本中的位置信息和特征之间的相互关系。通过不同的特征权重设置,可以调整FusionSim度量的严格度。此外,FusionSim算法还有很高可扩展性,算法设计和程序实现都可以很方便的加入新的相似度算法。通过在文本和网页数据集上的实验,FusionSim的查准率和查全率都优于SimHash算法。
其他文献
随着江苏移动的企业邮箱业务的不断发展,基于WAP Push Mail业务的邮箱系统以其和手机的绑定功能在电子邮箱领域得到推广应用。与此同时,系统的用户数也在不断增长。因此,确保
混沌神经网络具有混沌、分岔、吸引子等丰富的动力学特性,是可实现真实世界计算的智能信息处理系统之一,在人工智能、信息安全、智能搜索、最优化计算等领域具有重要的应用价值
动态地形多分辨率建模是虚拟环境建模技术中的重要研究内容之一,体现了实体与地形间的实时交互作用,在军事仿真、城市规划等领域有着广泛的应用需求。现有的动态地形实时绘制
随着基于构件的软件开发技术的推广和深入发展,构件库已经在软件研究领域得到越来越多的关注。构件的查询是构件库的基本功能,利用聚类分析技术对构件进行聚类,可以实现构件
H.264是一种先进的、近年来流行的国际视频编码标准。国内外很多公司以及研究机构都在研究H.264编码算法在数字信号处理器(DSP,Digital Signal Processor)平台上的实时解决方
机群系统的迅速发展使其成为并行计算系统中令人瞩目的一族。机群系统的异构性、开放性和网络延迟特性给网络并行计算带来了新的挑战。其中,任务调度策略是影响机群系统性能
移动自组网(Mobile Ad-hoc NETworks,MANETs)是独立的网络自治系统,不依赖于任何预先架设的网络设施,是当前网络与通信领域研究的热点。然而,网络中节点的任意移动和网络拓扑
随着Internet和Web技术的广泛应用,越来越多的企业迫切需要高效地构建自己的Web应用系统。近年来,Sun公司的J2EE平台凭借Java语言的诸多特性和企业软件开发中的种种经验,成为
模型驱动架构(MDA)这种软件开发方法能够直接通过建立的模型生成可用的软件产品。它是包括一系列建模规范、变换规则和其他相关标准的体系结构。在MDA中,软件开发过程由模型