【摘 要】
:
随着互联网的快速普及,通过网络共享的信息资源正以指数级的速度递增。要从众多的网页中找到我们需要的信息,无疑像大海捞针一样困难,搜索引擎技术就是为了帮助人们快速地找
论文部分内容阅读
随着互联网的快速普及,通过网络共享的信息资源正以指数级的速度递增。要从众多的网页中找到我们需要的信息,无疑像大海捞针一样困难,搜索引擎技术就是为了帮助人们快速地找到所需的信息。而搜索引擎的检索性能评价作为信息检索研究中的核心课题之一,客观可靠的检索性能评价方式是必须考虑和设计的内容。传统的搜索引擎性能评价方法需要人工标注标准答案集,需花费了大量的人力物力,并且评价结果依赖人工标注的准确性,效率较低。基于聚类分析的思路,提出了一种搜索引擎性能评价指标和自动进行搜索引擎性能评价的方法,此方法能自动计算信息类查询的覆盖范围,并根据其覆盖范围对检索结果进行聚类,通过评估函数实现检索性能的自动评价,并对如何利用类间距和类内距两个指标来定义合适的评估函数进行了分析。实验结果表明,基于聚类指标的评价方法与人工标注的评价方法的评价结果是相一致的。具体来说,本文的工作主要包括以下几点:1 )在大规模日志分析的网络搜索引擎用户行为研究的基础上,对Sogou实验室提供的查询日志进行分析,提取了查询日志中的信息类查询并提出了计算查询覆盖度的方法;2)使用不同的搜索引擎(谷歌、百度、Bing)对提取出来的信息类查询进行检索,运用一些网页抓取器将检索返回的结果网页下载保存进行预处理;3)构建了一个完整的检索系统评价实验平台,对检索结果进行聚类分析,通过类内距和类间距等聚类指标定义不同的评估函数对检索性能进行评价;4)使用抽样方法进行人工标注,用传统的评价方法对检索性能进行评价,比较分析两种评价方法的优劣,完成多种评价函数的比较实验。
其他文献
主动轮廓模型在计算机视觉、目标运动跟踪、医学图像识别等领域已成为一项研究热点,不同于Marr分层视觉理论,它是一种充分利用高层信息的图像处理过程,能够将图像分割、目标检测以及先验知识信息统一在一个框架中讨论的模型。高分辨率遥感图相比于普通图像,包含的信息量更大,强度不均匀,背景更复杂。利用传统的主动轮廓模型来解决遥感图像目标提取,容易产生目标边缘丢失、陷入局部最优等问题,因此有必要进行研究,通过改
随着网络技术的迅速发展以及先进软件平台J2EE的广泛采用,基于MVC开发模式的多层Web应用已成为主流,而相应的SSH(struts+spring+hibernate)框架也引起了学术领域和应用开发领
OpenSSL作为当前业界应用最为广泛的一套SSL协议开源实现,其高强度密码算法在SSL协议中的应用一直以来受到美国政府的严格限制。随着计算机技术的快速发展,基于常规密码算法
移动机器人是一种具有高度自规划、自组织、自适应能力,适合于在复杂的非结构化环境中工作的机器人。路径规划和安全导航技术是自主式机器人的研究核心,同时也是移动机器人实
随着计算机系统在宇航、气象、救灾、军事等各个关键领域的广泛应用,其可靠性和可信性日趋重要,一旦硬件系统发生故障,可能带来巨大经济损失,甚至影响人身安全和国防安全。同
Internet是一个高度开放、异构和分布式的信息空间,海量的信息杂乱地散布在全球各个站点上,而且每天都以极快的速度更新。随着互联网技术的发展和网络应用的日益广泛,Interne
很多数据集中含有冗余数据、噪声数据,以及不完备数据。这些数据不仅占据了很大的存储空间,而且对学习器完全无用甚至有害。因此,我们希望能够从一个数据集中选取少量有用的
随着我国民主政治的不断推进,民主建设不断加强,政协委员作为履行人民政协职能的主体越来越被重视。由于政协组织的特点,政协委员分属各个单位,相隔甚远,除了开会,平时很难接
字符串匹配是计算机科学中最古老,研究最广泛的问题之一。近年来,学术界对字符串匹配的研究兴趣与日俱增,特别是在发展迅猛的信息检索领域和计算生物学领域。形成这个现象的
Android操作系统是目前市场占有率最高的移动操作系统,随着用户的积累,各类Android应用不断丰富。但由于用户安全意识的薄弱和应用分发市场的混乱,恶意应用的数量也开始日益