个性化搜索中的用户兴趣建模技术研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:ljvael
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展,互联网上的信息量呈几何级数的增长。对于不同背景和不同兴趣爱好的人,要从浩瀚的信息海洋中找到其需要的信息,是一项较大的挑战,个性化的信息检索系统满足了这一要求。个性化信息检索的核心是用户兴趣建模,用户兴趣建模是指从有关用户兴趣和行为的信息(如浏览行为、浏览内容、知识背景等)中归纳出可计算的用户模型的过程,用户模型的好坏直接影响了搜索的结果。   本文对个性化信息检索中的用户兴趣建模部分进行了研究。针对文档相似度计算精度不高的问题,提出一种基于加权语义网的文档相似度计算方法,得到更为准确的文档相似度;在计算兴趣度权值时,引入有效信息的概念及量化方法,以解决用户兴趣类权值计算过于主观、忽略网页本身特性的问题,并提出具体权值算法,较大程度地提高了权值计算的准确性;针对现有方法难以准确描述用户兴趣偏移的问题,提出一种新颖的基于矩阵表示的用户兴趣偏移处理方法,实验表明,该方法较已有方法更准确地处理了用户兴趣的偏移。所做的具体工作包括:   (1)在计算文档相似度时,针对VSM(Vector Space Model)方法影响计算精度,语义网方法忽略词语本身特性的问题,引入加权语义网进行文档相似度计算。利用现有语义网WordNet的语义结构,并基于VSM方法来计算特征词在文档集中的权重,加权形成加权语义网,用以计算文档中特征词两两之间的相似度;提出相应算法,进一步计算两个文档的相似度。   (2)计算用户兴趣类权值时,提出有效信息的概念,通过已得到的用户兴趣聚类结果,获取文档中有效信息区域及其信息量大小,计算用户在有效信息上的驻留时间,即有效驻留时间,进一步计算兴趣类别的权值。   (3)提出一种基于矩阵表示的用户兴趣偏移处理方法。引入时间窗口,对短期兴趣进行分组;采用语义网,合并用户兴趣类别;通过以上两步得到用户兴趣矩阵。用兴趣率代替兴趣度,优化用户兴趣矩阵;最后,分析兴趣矩阵,综合考虑兴趣的持续性和波动率,计算最终兴趣大小。
其他文献
随着数字化信息时代的到来,越来越多的数字化产品普及到了人们的日常生活。虽然数字化技术对信息的处理、传播和复制了提供极大的便利,但同时它也带来了一些负面效果,如版权
在传统的TCP/IP协议中,IP地址同时表示节点身份与位置,存在语义过载问题,导致核心路由表扩张,移动性差,多宿主等诸多问题,基于位置/标识分离思想是解决该问题的方式之一。但
随着计算机技术、数据存储技术和数据库技术等飞速发展,特别是互联网技术的广泛应用,个人电脑和互联网服务器上每天都会出现海量数据。从这些数据中挖掘出有价值的信息以指导
随着水资源的日益紧缺和农业机械化的要求,微灌已成为精确农业的一个重要组成部分。由于无线传感器网络(WSN)在许多场合的成功应用,国外已经将WSN技术应用于大范围农业微灌控
智能规划是近几年人工智能领域中的一个研究热点,因其广泛的应用价值和在理论研究中的重要地位,受到越来越多的学者关注。马尔可夫决策过程是研究随机环境下多阶段决策过程优
在软件开发过程中,软件需求扮演着极其重要的角色,能否满足软件用户或者市场的需要成为了软件能否取得成功的关键因素。传统的软件需求工程中,软件需求工程师协调着软件需求
当前网络安全问题日益突出,网络与信息安全面临严峻的挑战。传统的安全系统主要由防火墙、筑高墙、防外攻等手段组成,其不能从根本上解决网络安全问题。而大多数的安全问题是
随着互联网技术的迅猛发展,数码产品的普及以及存储器容量的提升,视频数据量呈现出指数级增长,如何对海量视频数据进行有效的检索已经成为一个亟待解决的问题,于是基于内容的
摘要:目前P2P流媒体技术已经成为互联网上应用最广的流媒体应用的技术。基于P2P技术的流媒体业务也因此迅速发展,使得业务类型和流媒体用户大量增多,使得用户管理、业务管理和
数据通信的发展越来越趋向于无线化,但是无线网络中,有限的带宽资源以及复杂多变的信道特性,限制了视频和音频等多媒体实时业务服务质量。在2005年底出台的IEEE802.11e是传统