基于参考文档模型的个性化Web检索研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhaohongjie0908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的迅速普及,人类进入了信息时代,各种信息资源呈现出了爆炸式地增长。在大量的信息中帮助用户更加准确地找到他们想要的信息就成为了信息检索的重要任务。然而传统的信息检索技术大部分都是基于字符串匹配的,他们已经很难满足用户越来越个性化的需求。为了解决这一问题,本文从个性化的动机出发,尝试了实现个性化搜索引擎的不同的技术,主要分成以下三个方面的研究:(1).个性化潜力分析。在本章中,我们首先从数量的角度证实了在网页搜索引擎的查询日志中不同与其他用户的点击数量要多远于被重复的点击数量。然后我们引入Kappa统计量对在同一个查询下的不同用户的点击的一致程度进行了度量。Kappa值的分布显示用户的点击的一致程度是很难用“一刀切”的网页搜索引擎满足的。最后我们引入了“个性化潜力”指标给出了大概什么样的查询能够从个性化中获益更多。(2).基于参考文档模型的个性化Web检索。本章中我们引入了参考文档模型对用户的历史点击文档进行建模并以反馈的方式个性化不同用户相同查询的搜索结果。我们分别在向量空间和概率空间下对参考文档模型的性能进行了实验。实验结果表明,不论是在向量空间还是在概率空间下,参考文档模型都能够从用户的历史点击的文档中对用户的个性进行很好地建模,并将这种个性很好地融入检索过程当中。(3).基于多信息融合的查询推荐。本章中我们就如何使用查询日志中记录的用户群组的历史来实现个性化的查询进行了研究。具体地说,我们首先通过对美国在线的查询日志的分析验证了将其他查询历史相似的用户的查询进行相互推荐的可行性,然后使用了机器学习算法对多种用户查询历史序列的相似度指标进行了融合,并根据融合后的相似度找出查询历史最相近的用户将他们的查询推荐出来。在搜狗的查询日志中的实验结果证实了这种方法确实能够有效地将相似的用户的查询排在了前面。此外,我们还对基于用户群组的点击推荐进行了一定的探索。
其他文献
在煤矿钻孔水位监测系统中,钻孔水位是煤矿最重要的安全参数,水位传感器是实现其测量的主要设备。目前,常用的浮子式水位传感器工作原理简单、稳定可靠,广泛应用在水利水电行
无线传感器网络是资源受限型网络,传感器节点的能量、通信能力、计算和存储能力都是非常有限的。为了维持网络更长的工作时间,设计能量高效的路由协议成为无线传感器网络研究面
目前,计算机视觉系统正在广泛地应用于视觉检测、视觉导航和自动化装配领域中。在大多数视觉系统中,摄像机都是作为摄像工具,对摄像目标进行处理,但是摄像机是被动传感器,当
本论文致力于软件可靠性优化分配技术的研究与实现的目的。全面分析了串联系统、并联系统、基于重要度复杂度、基于故障率分析、架构方式和基于AHP方式的多种软件系统可靠性
随着数据库技术的广泛应用,企业信息系统产生了大量的数据,如何从这些海量数据中提取对企业决策分析有用的信息成为企业决策管理人员所面临的重要难题。数据仓库与OLAP(联机分析
长时间运行的Web应用系统存在软件老化现象。软件老化会造成严重的经济损失、对系统可靠性影响大,如何解决Web应用系统软件老化问题已成为当前研究的热点。为了降低软件老化
近年来,随着智能接口和人机交互技术的迫切需求和快速发展,以人脸表情识别为主的情感计算成为新的研究热点。人脸表情识别能够增强人机交互的智能性和友好性,具有重要的科研
蚁群优化算法( ACO )内在的并行性、鲁棒性等良好特性使其成为解决复杂组合优化问题的一种非常有效的计算模型,但ACO亦存在初始求解速度慢、易出现早熟或停滞现象的缺陷,本文
如何快速地、准确地诊断癌症一直是困扰着医生的难题,很多肿瘤病例由于病变区域介于良性与恶性之间,一些欠缺经验的医生不能及时下诊断,使得病患耽误医治的最佳时机。癌症的发病
随着互联网用户和规模爆炸式增长,如何让用户更快捷的搜索到需要的信息成了学术界和搜索引擎公司共同关注的问题。搜索引擎上用户查询的形式是多种多样的,如何正确的分析查询