论文部分内容阅读
本文概述了对搜索引擎特别是中文搜索引擎的相关研究,分析了下一代智能搜索引擎的功能特点,并尝试利用相似度算法实现智能搜索引擎中的概念的识别。 关键词检索是大多数搜索引擎的主要检索手段,然而多数搜索引擎对此不加控制。从情报语言学研究的成果以及网络信息检索的现状来看,自然语言不加以控制,检索效率与效果是不能尽如人意的。应该说,要克服关键词检索系统的弊病,必须对关键词进行有效的控制,变字面检索为概念检索。 本文在对字面相似度识别算法的深入分析基础上,提出了基于词素的语义识别算法。该算法首先将复合词切分为词素,并在此基础上对词素进行语义分解和标注来进行同义判别。其主要依据是,对标引关键词的切分统计表明,专业领域中的大多数复合词可由数量有限的词素组配而成,通过建立一个专业性的词素语义信息词典,可以将复合词切分为词素,再转换为事先设计好的语义范畴代码,在相似度计算时以语义代码的比较代替字面的比较,突破了以往字面相似度算法的一些局限。 通过与字面相似度算法进行对比测试,证明该算法具有相对较高的识别率,对搜索引擎的概念检索有一定的应用价值。