论文部分内容阅读
Internet的普及和应用十分迅速,已成为人们获取信息和知识的重要途径。互联网体系结构具有开放、异构和分布式等特点,互联网上的信息具有海量、冗余、更新快等特点。搜索引擎是人们获取网络信息的有效途径,伴随着互联网和人们信息需求的发展,如何在互联网上获取有价值的信息还是存在很大困难。一般情况下,不同搜索用户的搜索意图和信息需求是不相同的,具有一定的特定性和互异性。传统的搜索技术中没有考虑信息需求的差异性,相同的搜索关键词,返回一样的结果,搜索准确度较差,不能满足人们的信息需求。对用户兴趣特性建立用户兴趣模型,在搜索引擎中引入用户兴趣模型,能够达到提高搜索准确度的目的。针对传统搜索引擎系统的局限性,人们信息需求的特性,本文进行了基于群体特性用户兴趣模型的搜索引擎技术研究。主要研究工作有以下几个方面:(1)分析研究通用搜索引擎的原理、结构和组成,以及发展现状,重点对存在的问题进行了深入分析,为后面的研究奠定了基础。(2)构建了基于群体特性的用户兴趣模型,设计了基于用户兴趣模型的搜索引擎体系框架。对用户兴趣模型进行了重点研究,研究了用户兴趣模型的表示和建立技术。在分析改进模糊ISODATA算法等文本聚类算法的基础上,提出了用户兴趣模型的更新算法,实现模型对用户群体兴趣特征的实时、准确反映。(3)研究了搜索意图分析和扩展的相关技术,给出了分析扩展算法,对于提高搜索效率,效果比较明显。(4)研究了搜索引擎排序算法,提出了基于用户模型的全局加权相关度排序算法,算法结合用户兴趣模型计算搜索关键词和搜索结果的相似度,依据相似度对结果进行排序,提高排序效果。(5)设计了基于群体特性用户兴趣模型的搜索引擎原型系统,划分了功能模块。利用Lucene和Java等开源软件和工具,实现了系统主要功能。重点对系统各项功能进行了实验研究,验证了设计思路和各算法的合理性,有效性。实验表明,在搜索引擎中加入具有群体特性的用户兴趣模型,搜索引擎的性能有一定的提高,说明研究思路合理,相关算法是有效的,同时方法存在着很多不足之处,有待于进一步的改进。