中文搜索引擎的搜索结果重合率研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:mengstephenmengsteph
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究目的是测试主流中文搜索引擎搜索结果之间的重合程度和差异程度。利用一个具有11 171条来自真实用户的提问样本集对百度、谷歌和中国雅虎进行实际测试,发现中文搜索引擎搜索结果之间的差异很大,重合率很低。在全部的第一页搜索结果中,三个引擎中任何一个引擎独有的搜索结果总数占89.34%,任何两个引擎之间重合的搜索结果总数占8.11%,三个引擎重合的搜索结果数量占2.54%。三个引擎前两页搜索结果的重合比例更低。通过和已有的英文搜索引擎重合率测试数据相比较,发现中英文搜索引擎的搜索结果重合率都很低,且很相
其他文献
超磁致伸缩材料(GMM)是一种具有双向可逆换能效应(磁-机、机-磁)的新型功能材料,利用其逆效应在超磁致伸缩执行器(GMA)驱动过程中感知出传感信号,可实现自感知执行器。探讨超磁致伸缩
随着Folksonomy在实际应用中的日渐普及和声望的不断提高,其在应用中存在的问题也逐渐显露出来。恶意Tag和对用户检索行为无效或低效的TagSpam严重地影响了Folksonomy的实际应
本文首先从信息源范围、信息源结构类型、信息存在状态、信息交流渠道等方面分析了信息源的特点,论述了通过网络信息源结构、内容、访问流量的挖掘实现对采集信息源进行评估与
最近的研究使得搜索引擎中搜取的网页文档与万维网的变化越来越同步。为使用户通过搜索引擎获取网络上的最新信息,必须加快倒排索引的更新。本文介绍了使用界标和增加,删除网页
情感分类及其应用是目前研究的一个热点,是自然语言处理,机器学习和心理学等多学科交叉的研究课题,在很多领域都有实际的应用,如产品的声誉分析,舆情跟踪,博客兴趣分析等。论
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重
针对无监督的支持矢量聚类方法由于样本类别数量未知带来的模型参数难以选择的问题,提出有监督的支持矢量聚类方法,并应用到机械故障诊断中。该方法首先以聚类区域个数及支持
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长。文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务。关键词自动抽取是
本文首先确定了国内外知识管理领域的关键词,在此基础上,用词频分析的方法,对比分析了国内外知识管理研究的热点、方法、学科分布和应用领域。
MetaMap是美国国立医学图书馆建立的自由文本到UMIS超级叙词的映射工具。文章首先从名词短语的变量产生、入选叙词、入选叙词赋值以及最终映射四个阶段对MetaMap的文本映射基