基于Nutch的医学信息搜索推荐系统研究与应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:cctasty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术快速发展,医学行业大量的文献资料、数据库等资源被分享到互联网上,而这些资源需要通过搜索引擎进行搜索才能找到。通用的搜索引擎使用人群较广,覆盖领域较宽,虽然在用户查询的时候也会给出推荐词,但是这些推荐词都是跟查询词语义相关的词。实际上搜索不仅是找到用户查询词语义相关的信息,而且要满足用户多方面的搜索意图。查询推荐技术会提供更加准确的推荐词,帮助用户确定搜索意图,提高搜索的准确度。本文的工作主要有以下三个方面:(1)基于改进LDA主题模型的查询推荐。传统方式通过词语重复度来判断两篇文档是否相关,从而给出相关的推荐词,无法了解到文字背后隐含的关联关系。主题表示为一个概念或者一个方面,由一系列相关词语组成。LDA主题模型是一种效果较好的语义挖掘模型,其克服了向量空间模型的不足,但是医学信息中存在大量无法过滤的高频词,例如“口干”、“舌燥”等等,原始LDA主模型容易受到高频词的影响,导致主题间区分度较小,因此本文提出对LDA主题模型进行高斯加权改进,实验表明基于改进LDA主题模型的查询推荐算法在查全率、多样性等方面效果都好于原始LDA主题模型的查询推荐算法。(2)基于查询词语义和查询点击文档聚类的查询推荐。分析用户搜索日志可知,用户在搜索医学信息时使用的查询词重复率远远高于其他信息,用户关注点较为集中,大部分人点击的网页集中在热点领域,例如医疗、健康、疾病等等,因此计算查询词相似度需要考虑查询词的语义和点击的文档内容这两方面因素的影响。根据医学信息上述特点,本文提出了一种新的查询词相似度计算方法,它线性组合了查询词语义相似度和查询点击文档内容相似度。层次聚类划分的类簇效果较好,但运算复杂度较大,因此本文提出改进的层次聚类,对类簇间的相似度预先排序,从而达到降低算法的计算复杂度。不同与传统基于相似度排名的推荐策略,采用基于模型的推荐策略,从多个与用户查询词相似度较高的候选类簇中,按照预定的规则选取推荐词,然后按照相似度大小排序返回给用户推荐词。(3)系统设计与实现。本文实现了一个分层的查询推荐系统,系统划分为展示层、业务层、数据层,每层有多个模块组成,采用分层架构便于系统的扩展。
其他文献
人脸检测是涉及模式识别、图像处理、生理学等多个领域的学科。最初的人脸研究主要集中在人脸识别领域,随着人脸应用范围的扩大、计算机技术的成熟,人们的实际应用需求越来越
随着我国教育事业的蓬勃发展,各类大专院校规模不断扩大,毕业生数量不断增加,这就对高校就业工作的高效性和规范化提出了更高的要求。如何提高高校毕业生就业工作的信息化程度,使
随着802.11无线网络的普及以及无线终端的逐渐丰富,如何在802.11网络上更为有效高质地传输语音业务具有非常重要的研究价值和应用前景。本文对前人的研究工作进行了详尽的归纳
随着空间数据库、地理信息系统、基于用户位置服务和移动应用的普及和广泛应用,空间数据库管理系统的安全问题得到越来越多的关注。带有空间特性的角色访问控制模型Spatial-R
本文的研究工作主要包括:基于CT图像的颌面部模型三维重建、口腔咬合过程中骨组织及软组织的运动仿真、义齿与脸颊软组织间的干涉检测与修正。建立口腔咬合修复仿真系统,充分体
随着互联网和虚拟环境技术的发展,以大型多人在线游戏(MMOG,MassiveMulti-player Online Game)为代表的网络游戏产业迎来了新世纪的空前繁荣。它对社会经济的发展起着巨大的推
拍卖的历史非常悠久,它是最古老的销售方式之一,拍卖行业正式形成是在18世纪的欧洲。拍卖行为本身是商品社会中驱使商品利润最大化的一种特殊方式。随着社会科技的进步,计算机技
概率图模型能很好处理不确定性,一阶逻辑可以简洁地表示知识,将概率与逻辑整合在同一个表示之中一直是人工智能领域的一个长期目标。Markov逻辑网是公式附加权值的一阶逻辑知识
随着信息技术和计算机网络技术的飞速发展,多媒体数据的生产和分发都实现了数字化和网络化。数字多媒体数据(如图像、文本、音频、视频、三维模型等)的存储、拷贝与传播变得
目前,门户(Portal)在企业中获得了广泛的应用,Portal是一种web应用,主要用于构建分层次、个性化的信息和应用入口,将来自各个信息源的内容集成到一个web页面中,并为信息系统提供统