中文搜索引擎的搜索结果重合率研究

来源 :情报学报 | 被引量 : 0次 | 上传用户：mengstephenmengsteph

【摘要】

：

本文的研究目的是测试主流中文搜索引擎搜索结果之间的重合程度和差异程度。利用一个具有11 171条来自真实用户的提问样本集对百度、谷歌和中国雅虎进行实际测试,发现中文搜

【作者】

：

王益明刘菲

【机构】

：

北京大学信息管理系

【出处】

：

情报学报

【发表日期】

：

2009年3期

【关键词】

：

搜索引擎重合率百度谷歌中国雅虎 search engine overlap baidu google cn yahoo cn

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文的研究目的是测试主流中文搜索引擎搜索结果之间的重合程度和差异程度。利用一个具有11 171条来自真实用户的提问样本集对百度、谷歌和中国雅虎进行实际测试,发现中文搜索引擎搜索结果之间的差异很大,重合率很低。在全部的第一页搜索结果中,三个引擎中任何一个引擎独有的搜索结果总数占89.34%,任何两个引擎之间重合的搜索结果总数占8.11%,三个引擎重合的搜索结果数量占2.54%。三个引擎前两页搜索结果的重合比例更低。通过和已有的英文搜索引擎重合率测试数据相比较,发现中英文搜索引擎的搜索结果重合率都很低,且很相

其他文献

影响超磁致伸缩执行器中逆效应性能的主要因素

超磁致伸缩材料（GMM）是一种具有双向可逆换能效应（磁-机、机-磁）的新型功能材料，利用其逆效应在超磁致伸缩执行器（GMA）驱动过程中感知出传感信号，可实现自感知执行器。探讨超磁致伸缩

期刊

超磁致伸缩逆效应自感知Magnetostrictive Converse effect Self-sensing

基于概念格的Folksonomy知识组织研究——Tag Spam过滤指标权值配置

随着Folksonomy在实际应用中的日渐普及和声望的不断提高，其在应用中存在的问题也逐渐显露出来。恶意Tag和对用户检索行为无效或低效的TagSpam严重地影响了Folksonomy的实际应

期刊

概念格FOLKSONOMY垃圾标签权值配置concept lattice folksonomy tag spam weight configura

基于数据挖掘的企业竞争情报智能采集策略研究（Ⅱ）——采集信息源的分析、选择与集成策略

本文首先从信息源范围、信息源结构类型、信息存在状态、信息交流渠道等方面分析了信息源的特点，论述了通过网络信息源结构、内容、访问流量的挖掘实现对采集信息源进行评估与

期刊

数据挖掘企业竞争情报智能采集信息集成data mining enterprise competitive intelligence intellig

一种支持高效检索的实时更新倒排索引策略

最近的研究使得搜索引擎中搜取的网页文档与万维网的变化越来越同步。为使用户通过搜索引擎获取网络上的最新信息，必须加快倒排索引的更新。本文介绍了使用界标和增加，删除网页

期刊

搜索引擎倒排索引更新策略界标search engine inverted index update strategy landmark.

自动情感文本分类研究综述

情感分类及其应用是目前研究的一个热点,是自然语言处理,机器学习和心理学等多学科交叉的研究课题,在很多领域都有实际的应用,如产品的声誉分析,舆情跟踪,博客兴趣分析等。论

期刊

情感语义词典主观识别情感分类舆情跟踪声誉分析研究综述sentiment semantic lexicon subjectivity identif

基于样本加权的文本聚类算法研究

样本加权聚类算法是一种最近才引起人们注意的算法，还存在一些需要解决的问题，例如，聚类对象之间的结构信息对样本加权聚类是否有帮助，如何将结构信息自动转换为样本或对象的权重

期刊

文本聚类样本加权聚类PAGERANK被引频次document clustering sample weighted clustering PageR

基于支持矢量聚类的机械故障诊断

针对无监督的支持矢量聚类方法由于样本类别数量未知带来的模型参数难以选择的问题,提出有监督的支持矢量聚类方法,并应用到机械故障诊断中。该方法首先以聚类区域个数及支持

期刊

支持矢量聚类故障诊断k近邻法Support vector clustering Fault diagnosis k nearest neighbor

中文文本关键词自动抽取方法研究

随着信息技术的发展，中文电子文本信息资源正以惊人的速度急剧增长。文本自动处理技术，通过自动组织海量文献信息资源，能够为用户提供简易有效的信息检索服务。关键词自动抽取是

期刊

中文文本关键词抽取文本表达Chinese text documents keyword extraction text representation

国内外知识管理研究热点——基于词频的统计分析

本文首先确定了国内外知识管理领域的关键词，在此基础上，用词频分析的方法，对比分析了国内外知识管理研究的热点、方法、学科分布和应用领域。

期刊

词频分析法研究热点对比分析知识管理文献计量word frequency analysis method research hotspots com

MetaMap的文本映射原理及其对检索效果影响的研究

MetaMap是美国国立医学图书馆建立的自由文本到UMIS超级叙词的映射工具。文章首先从名词短语的变量产生、入选叙词、入选叙词赋值以及最终映射四个阶段对MetaMap的文本映射基

期刊

MetaMap一体化医学语言系统超级叙词文本映射查准率查全率MetaMap UMIS metathesaurus text mapping

中文搜索引擎的搜索结果重合率研究

与本文相关的学术论文