实时Web内容重复识别及排序系统的设计与实现

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:zhaoqiangwudi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决现有Web信息检索结果中存在较多内容相似甚至相同页面的问题,给出了实时Web内容和结构信息提取的算法及内容重复识别的方法。利用Google提供的PageRank查询接口取得各个页面的PageRank值,结合特定用户的特征信息、查询请求及提取的各Web页内容及结构信息,完成了文档相似度比较,实现了实时页面的重复识别及二次排序,实验结果表明该方法达到了较好的效果。
其他文献
个性化回铃音业务是一种新兴的增值业务,在被叫用户接听电话之前,向主叫用户播放个性化设定的各种音乐和声音等通话连接音,取代了过去单调的回铃音。本文介绍了基于CDMA网络实现的个性化回铃音业务的概念、系统架构及实现方式,并对各种实现方式进行了比较。
一、我国中小企业融资难的成因分析 (一)中小企业自身机制的制约 1.企业自身素质不高,主要表现为生产技术水平低、技术创新能力差、管理水平落后、市场风险大,一旦出现产品市
目前在Windows操作系统下,实现只运行一份程序实例的常用方法都在可靠性方面存在着严重缺陷的问题,系统地介绍了"查找程序主窗口标题"、"使用线程互斥体"和"使用Windows全局原子"3
元搜索引擎的调度策略研究如何选择贴近需求的成员搜索引擎组合,以较小的资源耗费,帮助用户获得较高的查询质量。提出了一种基于检索术语分类的评价方法,根据成员搜索引擎的查全
本文首先类比计算机行业,指出未来电信产业价值链的变化:产业链的水平分割。然后着重探讨了运营商间未来竞争将向群居链竞争和服务品牌竞争转变,并分析了运营商收入结构的变化:从“网络连接与接入”到“增值服务与合作分成”。最后指出企业间单枪匹马的价格竞争要向战略联盟间和产业群居链间竞争、服务品牌与差异化竞争转变,即从低层次的竞争向高层次上的竞争转变。
近年来,进行家庭网络相关标准研究工作的组织很多,但每个标准组织的研究重点都不尽相同。本文对目前国内外相关标准组织的研究进行了分析,着重对中国通信标准化协会所进行的基于电信网络的家庭网络标准研究进行了介绍,包括目前已完成的草案的主要内容、标准体系结构以及今后相关标准研究的一些问题。
曲靖市有什么权力偷梁换柱近日,国家安全生产监督管理局局长李毅中在安全生产视频会议上说,11月25日、26日发生的3起煤矿事故都属于已关闭矿井和停产整顿的矿井擅自违法恢复
关联规则是数据挖掘的一个重要研究方向。分析了FP算法的优缺点,提出了一种基于数据库划分的算法PFp算法,从理论上证明了该算法的正确性。该方法将事务数据库划分为子事务数
本文首先对美英两国政府放松电信运营市场管制的过程及特点进行了对比分析,然后结合中国电信运营市场的改革历程,指出未来中国电信运营市场应在政府的规范和监督下,早日建立起完善的法律环境,使电信产业走上更加良性发展的道路。
在传统支持向量机的分类求解算法中,严格凸的无约束最优化问题中单变量函数+是不可微的。三次样条插值多项式光滑的支持向量机模型采用的是一种多项式光滑技术,使用三次样条插