基于知网的多关键字检索研究

被引量 : 0次 | 上传用户:nokisoki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网信息的飞速膨胀,网络成为人们获取信息的主要渠道,而信息检索也成为人们上网的主要目的之一。但是,如何从这样一个庞大的信息资源库中获取需要的准确信息,已成为人们面临的一个重要问题。现有的搜索引擎往往采用机械式的字符串匹配的搜索技术,在处理单一关键词时,基本可以满足用户要求,但在处理多关键词时,问题就出现了。首先,由于只是基于字符串匹配,使得位置靠后的关键词很可能被忽略掉。再者,即使多个关键词都匹配到,但没有注重关键词的各自的重要度,从而导致检索结果与用户意图不符,降低查询的准确度。在处理多关键词时,需要一个强大的知识库的支持。《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它为自然语言信息处理的研发提供了丰富的知识资源。因此,本文选定《知网》来实现多关键词的处理,使得检索不再是简单的基于关键词的机械式匹配,而是注重关键词间的语义关系,用以解决当前搜索引擎查准率低的问题。本文认真研究《知网》后提出了基于知网的多关键词知晓模型,模型主要包括三大模块的实现:词义消歧模块、语义关系知晓模块、复合词处理模块。词义消歧模块:一词多义是制约语义关系知晓的重要因素。因此,本文提出了影响相关度的五种因素,并通过计算多关键词的语义相关度进行词义消歧。语义关系知晓模块:根据汉语的特点,本文提出了八种多关键词语义关系、核心关键词与分级权重,并根据不同的语义关系设置不同的分级权重,以提高查询的准确度。复合词处理模块:对于《知网》中未出现的词语,即复合词,本文基于语义关系知晓提出了概念组合法,以确定复合词义原表示项,并解决了复合词无法参与语义关系判断的难题。为了验证模型的合理性,本文分别对三个模块进行了实验,并结合多关键词的知晓技术设计了一个元搜索引擎检索模型。从实验结果来看,基于知网的多关键词知晓模型在搜索引擎中的应用是可行的,提高了搜索引擎的查准率。
其他文献
梨果是中国的三大水果之一,梨果生产是农民收入和财政收入的主要来源,梨果出口在中国农产品出口贸易中占有重要地位。详细研究梨果的世界市场和中国的出口状况,分析当前出口中存
死亡赔偿金,从概念、性质到赔偿标准,历来都存在争议。虽然2003年12月4日通过的《最高人民法院关于审理人身损害赔偿案件适用法律若干问题的解释》对死亡赔偿金的赔偿标准都
本论文设计并合成了5种Schiff碱及其稀土配合物,研究了配合物在催化环氧氯丙烷的立体选择性水解动力学拆分和不对称Biginelli反应中的应用。一、配体及其配合物的合成与表征
19世纪是现代真菌学诞生的时代,也大致涵盖了西学东渐的第二个阶段。作为知识的载体和交流的媒介,中西语言和词汇的对应翻译对于西学知识在中国的传播起到了极其重要的作用;
舒婷一代的女性诗人作品是伴随着朦胧诗的主体意识觉醒而产生的,是以个体人性话语反叛以往价值确立的意识形态,同时并直接以女性的性别指认和呼吁对男性提出一种精神独立的
目的:观察注射用刺五加(冻干粉针)治疗气虚血瘀型冠心病心绞痛患者的临床疗效,初步探讨其确切作用机制,为临床应用提供科学理论依据。 方法:采用随机、单盲、平行、对照的方
中国石化抚顺石油化工研究院开发的煤焦油高压加氢处理与加氢裂化两段加氢组合工艺生产清洁燃料技术在某炼油厂160kt?a煤焦油加氢装置的工业应用结果表明,以煤焦油预处理后的
随着世界经济一体化的进一步发展,经济和文化之间的关系越来越密切,呈现出经济和文化交融的大趋势。中小企业作为市场经济的一支重要力量,已经在国际市场上发挥着越来越重要
通过综合分析一百多种现有的关于慕课和开放远程学习的近期文献,得出关于慕课的五个基本结论。第一,关于慕课的观点冲突分化了教育机构;第二,很多教育工作者不赞同慕课的价值
葡萄糖激酶(GK)是一种存在于哺乳动物肝脏和胰腺中分子量为50 KDa的蛋白质,也被称为Ⅳ型己糖激酶,是糖酵解过程中的第一个限速酶。GK具有双重作用,肝脏中的GK参与葡萄糖磷酸