论文部分内容阅读
随着因特网资源的迅猛增长,搜索引擎作为网络信息资源检索的工具正发挥着日益重要的作用。目前,搜索引擎已经成为仅次于即时通讯工具的第二大网络应用,关于搜索引擎技术的研究也是当前最热门的研究领域之一。尽管近些年搜索引擎技术有了很大的发展,取得了巨大的成功,但是仍然存在诸多值得改进的地方。本论文针对目前商业搜索引擎提供的相关检索词更新不及时,且在反映当前即时相关信息能力方面相对较差这一问题进行展开研究,并提出一种新的相关检索词的挖掘方法,以体现相关检索词的即时性特征。
在对大量相关理论技术进行系统的梳理和总结的基础上,本文针对搜狗商业搜索引擎的部分日志进行研究和分析,主要包括以下两方面的内容:
首先是用户检索行为特征分析。以搜狗商业搜索引擎的用户查询同志为研究对象,考察了大众搜索引擎用户的检索行为特征,并与以教育网用户为主的天网用户的检索行为特征进行了比较分析。考察的用户行为包括查询串中语言的使用情况、查询串的长度、查询串中词项的个数、查询时间分布、用户翻页行为、检索结果点击行为等。研究结果显示,大多数用户输入的查询串只含有一个词项,且绝大多数查询串都包括中文字符,在全部中文查询串中,以4-8个中文字符为最多,大多用户只查看检索结果返回页面的第一页,且只点击查看3个返回结果。
其次是即时相关检索词发现。本文综合运用了复杂网络和图论的相关知识,探索性地设计了一种基于搜索引擎短期日志,通过构建检索词网络的方式挖掘即时相关检索词的方法。并以搜狗的查询同志为研究对象,对所提出的方法进行验证。实验结果表明,使用该方法构建的检索词网络具有大的聚集系数和较小的平均路径长度,符合小世界网络的特性;通过本文给出的算法所得出的相关检索词在主题相关性和即时相关性两个方面均有较好的表现。同时,本文还对相关检索词挖掘的结果进行了可视化输出,并对这些结果的实际意义进行了解释。