智能搜索引擎中的同义词识别算法研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:ua8722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文概述了对搜索引擎特别是中文搜索引擎的相关研究,分析了下一代智能搜索引擎的功能特点,并尝试利用相似度算法实现智能搜索引擎中的概念的识别。 关键词检索是大多数搜索引擎的主要检索手段,然而多数搜索引擎对此不加控制。从情报语言学研究的成果以及网络信息检索的现状来看,自然语言不加以控制,检索效率与效果是不能尽如人意的。应该说,要克服关键词检索系统的弊病,必须对关键词进行有效的控制,变字面检索为概念检索。 本文在对字面相似度识别算法的深入分析基础上,提出了基于词素的语义识别算法。该算法首先将复合词切分为词素,并在此基础上对词素进行语义分解和标注来进行同义判别。其主要依据是,对标引关键词的切分统计表明,专业领域中的大多数复合词可由数量有限的词素组配而成,通过建立一个专业性的词素语义信息词典,可以将复合词切分为词素,再转换为事先设计好的语义范畴代码,在相似度计算时以语义代码的比较代替字面的比较,突破了以往字面相似度算法的一些局限。 通过与字面相似度算法进行对比测试,证明该算法具有相对较高的识别率,对搜索引擎的概念检索有一定的应用价值。
其他文献
本文主要研究了镍基合金GH4145/SQ在538℃温度下的低周疲劳行为、疲劳特性参数变化特征及其微观机制,初步探讨了低周疲劳特性参数波动对寿命预测结果的影响。 对GH4145/SQ
目的:探讨HRCT联合MRI 3D-SPACE序列在儿童脑脊液鼻漏诊断中的价值,并比较HRCT及MRI 3D-SPACE序列诊断脑脊液鼻漏的优缺点。方法:15例临床怀疑脑脊液鼻漏患儿分别行HRCT及MRI
对近十多年来关于荔枝核的化学成分、药理作用及临床应用作一概述,认为在其“温中止痛”方面的药理研究应予加强。
<正>一直以来,我喜欢简单而又丰富的东西,就像标点符号。它本是辅助文字记录语言的符号,是用来表示停顿、语气以及词语的性质和作用的。但在使用的过程中,我发现,标点符号里
随着我国社会经济的飞速发展,人们的生活水平不断提高,但城市居住区的犯罪率却直线上升,所以,居住环境的安全问题成为人们关注的焦点。通过建筑外环境的设计,可以为居民营造
目的分析细胞周期相关激酶(CCRK)在卵巢癌细胞中的亚细胞定位,研究CCRK在正常卵巢组织与卵巢癌组织中的表达差异,分析CCRK表达与卵巢癌患者预后的关系。方法采用激光共聚焦显
2006年为贯彻落实《国家中长期科学和技术发展规划纲要(2006—2020年)》,中央财政特设立“中央级科学事业单位修缮购置专项资金”(以下简称修购专项)。为规范和加强修购专款管理,提
改革开放,不仅是社会主义复兴和发展的主旋律,而且是增强社会主义竞争力,显现社会主义制度优越性的希望所在。近年来,由于全球化和世界社会主义改革开放浪潮的影响,朝鲜也在逐步革
<正> 1 研究的目的 刑事案件现场勘查中,经常发现犯罪分子遗留的足迹,科学地检验分析现场足迹,是目前痕检技术人员共同关心的问题。现行的足迹检验和步法分析方法,无论是测量