基于搜索引擎日志挖掘即时相关检索词的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:liyan2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网资源的迅猛增长,搜索引擎作为网络信息资源检索的工具正发挥着日益重要的作用。目前,搜索引擎已经成为仅次于即时通讯工具的第二大网络应用,关于搜索引擎技术的研究也是当前最热门的研究领域之一。尽管近些年搜索引擎技术有了很大的发展,取得了巨大的成功,但是仍然存在诸多值得改进的地方。本论文针对目前商业搜索引擎提供的相关检索词更新不及时,且在反映当前即时相关信息能力方面相对较差这一问题进行展开研究,并提出一种新的相关检索词的挖掘方法,以体现相关检索词的即时性特征。   在对大量相关理论技术进行系统的梳理和总结的基础上,本文针对搜狗商业搜索引擎的部分日志进行研究和分析,主要包括以下两方面的内容:   首先是用户检索行为特征分析。以搜狗商业搜索引擎的用户查询同志为研究对象,考察了大众搜索引擎用户的检索行为特征,并与以教育网用户为主的天网用户的检索行为特征进行了比较分析。考察的用户行为包括查询串中语言的使用情况、查询串的长度、查询串中词项的个数、查询时间分布、用户翻页行为、检索结果点击行为等。研究结果显示,大多数用户输入的查询串只含有一个词项,且绝大多数查询串都包括中文字符,在全部中文查询串中,以4-8个中文字符为最多,大多用户只查看检索结果返回页面的第一页,且只点击查看3个返回结果。   其次是即时相关检索词发现。本文综合运用了复杂网络和图论的相关知识,探索性地设计了一种基于搜索引擎短期日志,通过构建检索词网络的方式挖掘即时相关检索词的方法。并以搜狗的查询同志为研究对象,对所提出的方法进行验证。实验结果表明,使用该方法构建的检索词网络具有大的聚集系数和较小的平均路径长度,符合小世界网络的特性;通过本文给出的算法所得出的相关检索词在主题相关性和即时相关性两个方面均有较好的表现。同时,本文还对相关检索词挖掘的结果进行了可视化输出,并对这些结果的实际意义进行了解释。
其他文献
无论是DeepWeb数据集成系统,还是数字图书馆的跨库集成检索系统,都面临的一个巨大挑战就是如何更加高效地集成各种分布的、异构的Web数据源。这个问题具体又可以分为两个子问题
一、活动背景rn学生通过调查、访问、分析、交流等形式,深入了解自己身边“息息相关”的商业网点布局情况.一方面,本着“学习对生活有用的地理”、“学习对终身发展有用的地
期刊
本文在收集和阅读相关资料的基础上,针对传统企业价值流的现状和局限性,分析了信息化企业价值流的优越性,并且以系统理论、价值链及价值流的思想为指导,运用企业管理理论,建立了信息化企业的价值流模型,并对之评价。首先,基于价值链和价值流理论的研读,对企业的价值流内涵进行了系统的分析,并试图将信息化技术应用于企业管理中。接下来,采用对比分析的方式,对传统企业的价值流进行分析,指出传统企业中价值流运行的弊端;
高技术服务业(HTS)是高技术产业与知识型服务业融合形成的新兴服务业,是我国重点发展行业。服务创新是HTS发展的基础和动力,研究HTS创新具有重要的意义。HTS创新能力评价体系是
学位
我国的互联网自1997年进入高速发展期以来,互联网用户和终端设备的规模不断扩大,截至2009年6月,我国网民总数已经达到3.38亿,普及率为25.5%,年增长率为13.4%。  近几年来,基于Web2.
随着计算机技术和网络技术的发展,数字资源越来越成为高校图书馆馆藏的重要组成部分。数字资源以其无可比拟的共享性、可获得性、信息密集性等优势赢得了广大学术研究者的喜爱
一、研究背景现代社会,以计算机、网络和通讯技术为核心的现代信息技术正在取代以铁路、电力、机械工具等为核心的传统技术基础设施,成为新的社会技术基础,这是当今社会发展
本体作为一种对共享概念模型的明确的形式化的规范说明,不仅能够以面向对象的方式描述特定领域的主要概念,而且能够描述概念之间的关系。在科技领域,借助科技知识本体,能够有效地
期刊