论文部分内容阅读
随着网络技术的迅速发展,互联网上的信息量呈几何级数的增长。对于不同背景和不同兴趣爱好的人,要从浩瀚的信息海洋中找到其需要的信息,是一项较大的挑战,个性化的信息检索系统满足了这一要求。个性化信息检索的核心是用户兴趣建模,用户兴趣建模是指从有关用户兴趣和行为的信息(如浏览行为、浏览内容、知识背景等)中归纳出可计算的用户模型的过程,用户模型的好坏直接影响了搜索的结果。
本文对个性化信息检索中的用户兴趣建模部分进行了研究。针对文档相似度计算精度不高的问题,提出一种基于加权语义网的文档相似度计算方法,得到更为准确的文档相似度;在计算兴趣度权值时,引入有效信息的概念及量化方法,以解决用户兴趣类权值计算过于主观、忽略网页本身特性的问题,并提出具体权值算法,较大程度地提高了权值计算的准确性;针对现有方法难以准确描述用户兴趣偏移的问题,提出一种新颖的基于矩阵表示的用户兴趣偏移处理方法,实验表明,该方法较已有方法更准确地处理了用户兴趣的偏移。所做的具体工作包括:
(1)在计算文档相似度时,针对VSM(Vector Space Model)方法影响计算精度,语义网方法忽略词语本身特性的问题,引入加权语义网进行文档相似度计算。利用现有语义网WordNet的语义结构,并基于VSM方法来计算特征词在文档集中的权重,加权形成加权语义网,用以计算文档中特征词两两之间的相似度;提出相应算法,进一步计算两个文档的相似度。
(2)计算用户兴趣类权值时,提出有效信息的概念,通过已得到的用户兴趣聚类结果,获取文档中有效信息区域及其信息量大小,计算用户在有效信息上的驻留时间,即有效驻留时间,进一步计算兴趣类别的权值。
(3)提出一种基于矩阵表示的用户兴趣偏移处理方法。引入时间窗口,对短期兴趣进行分组;采用语义网,合并用户兴趣类别;通过以上两步得到用户兴趣矩阵。用兴趣率代替兴趣度,优化用户兴趣矩阵;最后,分析兴趣矩阵,综合考虑兴趣的持续性和波动率,计算最终兴趣大小。