论文部分内容阅读
随着互联网技术快速发展,医学行业大量的文献资料、数据库等资源被分享到互联网上,而这些资源需要通过搜索引擎进行搜索才能找到。通用的搜索引擎使用人群较广,覆盖领域较宽,虽然在用户查询的时候也会给出推荐词,但是这些推荐词都是跟查询词语义相关的词。实际上搜索不仅是找到用户查询词语义相关的信息,而且要满足用户多方面的搜索意图。查询推荐技术会提供更加准确的推荐词,帮助用户确定搜索意图,提高搜索的准确度。本文的工作主要有以下三个方面:(1)基于改进LDA主题模型的查询推荐。传统方式通过词语重复度来判断两篇文档是否相关,从而给出相关的推荐词,无法了解到文字背后隐含的关联关系。主题表示为一个概念或者一个方面,由一系列相关词语组成。LDA主题模型是一种效果较好的语义挖掘模型,其克服了向量空间模型的不足,但是医学信息中存在大量无法过滤的高频词,例如“口干”、“舌燥”等等,原始LDA主模型容易受到高频词的影响,导致主题间区分度较小,因此本文提出对LDA主题模型进行高斯加权改进,实验表明基于改进LDA主题模型的查询推荐算法在查全率、多样性等方面效果都好于原始LDA主题模型的查询推荐算法。(2)基于查询词语义和查询点击文档聚类的查询推荐。分析用户搜索日志可知,用户在搜索医学信息时使用的查询词重复率远远高于其他信息,用户关注点较为集中,大部分人点击的网页集中在热点领域,例如医疗、健康、疾病等等,因此计算查询词相似度需要考虑查询词的语义和点击的文档内容这两方面因素的影响。根据医学信息上述特点,本文提出了一种新的查询词相似度计算方法,它线性组合了查询词语义相似度和查询点击文档内容相似度。层次聚类划分的类簇效果较好,但运算复杂度较大,因此本文提出改进的层次聚类,对类簇间的相似度预先排序,从而达到降低算法的计算复杂度。不同与传统基于相似度排名的推荐策略,采用基于模型的推荐策略,从多个与用户查询词相似度较高的候选类簇中,按照预定的规则选取推荐词,然后按照相似度大小排序返回给用户推荐词。(3)系统设计与实现。本文实现了一个分层的查询推荐系统,系统划分为展示层、业务层、数据层,每层有多个模块组成,采用分层架构便于系统的扩展。