基于语义分析的文献检索技术研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lanbing510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于文献信息资源数量呈现指数级增长,且每时每刻还在不断的进行更新,所以,如何准确的对文献资源获取并利用成为当前技术研究的热点。随着时代的进步,检索系统从最早的手工信息检索发展到现在的计算机信息检索,国外主要的文献检索工具分别为SCI(Science Citation Index),EI(Engineeri-ng Inde x)、ISTP(Index to Scientific&Technical Proceedings),国内的是万方、知网、中国期刊等。当前大部分检索系统通过对输入查询内容与文献进行逻辑上的匹配,不能够准确的提取出用户真正需要的文献。单纯的在文字内容而不是文字真正含义上进行索引,检索系统的查全率和效率肯定达不到用户真正的需求。因此,本文针对以上问题进行研究。关键词的查找对文献查找的准确率起着重要的作用,所以对关键词提取技术进行优化。其中由Eiber-Frank等人提出的KEA算法能基于多个特征下提取关键字,由于本算法考虑到多个因素影响到关键词的准确性,所以将各个因素作为机器学习的特征,使用朴素贝叶斯的机器学习方法来提取文档中的关键词,但此方法针对英文文献进行关键词提取,方俊、郭磊等人对此方法进行改进,使其适合中文文献的关键词提取。本文在改进后的KEA方法上进行改进,使得关键词的提取更加准确。目前关键词的提取主要分为基于词频和基于语义的两大类,基于词频的关键词提取方法虽然速度上快,但是偶然性大,受领域性文本限制,准确率不能够得到保证。基于语义的关键词提取方法能够对文献中词语进行语义分析,得到词语间的深层含义,从而提高关键词提取的准确性。本文将语义分析更多地应用于改进后的KEA算法,在此算法的特征的选取上,将原有的TF_IDF变为TF_IWF,降低同领域文献对关键词提取的影响,将First Occurrence替换为Text Rank,使得关键词的提取更加可靠。还在文献的分词处理和候选词合并上进行改进,降低候选关键词的冗余,极大提升提取结果的准确性。为验证本文算法改进后的可行性和实用性,将改进后的KEA算法应用到文献提取排序的实例中,对排序后的文本进行查看,用户所需的文本排在前列,证明本方法的实用性。同时与现有的语义分析方法在准确率、召回率和两者的调和均值上进行对比,改进后的算法因为在朴素贝叶斯方法中的特征选取上选择了语义分析方法占有的比重大,所以查询结果更加准确。
其他文献
随着我国经济的快速发展,其对制造业生产效率等提出了更高的要求,为了更好的保证制造业的发展,推动当前制造业生产中的互联网和大数据等技术的融合,我国需要尽快实现物联网技
根据已知的资料,可以把泰勒斯的哲学看作从生命的角度说明一切以及从哲学的角度说明生命的生命哲学。生命、灵魂、水是泰勒斯哲学的基本范畴,三者的联系统一构成了已知的泰勒
考试是检查教学过程中的重要手段,是“知”与“未知”,“能”与“未能”程度的反映。具体说来,考试的作用一般有以下几点:
反思是一种积极的思维活动,在教学中引导学生学会积极的反思,对于培养学生学会学习是非常重要的。笔者通过对现实教育的前期调查和分析,试图通过强化学生的反思意识,寻找培养反思
当地时间5月9日,新西兰中国文化中心、重庆市文化和旅游发展委员会及重庆市文化交流中心、新西兰中国旅行社在奥克兰斯坦福德度假酒店联合主办2019“中国旅游文化周”奥克兰
随着城市的发展和人们生活水平的提高,城市景观水富营养化问题越来越严重,高效无二次污染治理景观水体引起人们的关注。本课题主要研究季铵盐为表面活性剂改性粘土对富营养化
江泽民同志在党的十四大报告中强调:"加强党的建设,首先必须把各级领导班子建设好。"高校领导班子建设,是高校党的建设中最重要的一项工作。历史和现实经验证明:一所高校能否办好,改革和发展的目标能否实现,党的教育方针能否全面贯彻落实,学生能否被培养成德、智、体全面发展的社会主义建设者和接班人,关键在于领导班子。在新的历史条件下,加强各级领导班子建设,特别是加强思想作风建设显得格外重要。加强领导班子的思想
由周良权老师主编、高等教育出版社93年10月出版的高等学校工程专科教材《模拟电子技术基础》,是根据国家教委1990年7月制订的《高等学校工程专科电子技术基础课程教学基本要
在数学界中,对与“哥德巴赫猜想”齐名的费尔马大定理证明的探索,历经230多年,一直没有得到完满的解决,仅验证了n【100000以内的特例。本文以绝妙的方法,从一般性上给予了严
为研究自密实混凝土无腹筋梁的抗剪性能和裂缝开展形态,进行了集中荷载作用下12根无腹筋钢筋混凝土简支梁(8根自密实混凝土和4根普通混凝土)的剪切破坏试验,变量为混凝土强度和