论文部分内容阅读
当今的互联网已经进入了多元信息化的新阶段,网络信息搜索技术已经得到了广泛应用。传统的搜索系统一般基于关键字字面内容匹配进行信息查询,很难真正表达用户潜在的查询需求。语义搜索是一种区别于传统的基于关键词匹配的信息搜索方式,在语义层面上准确地分析用户的搜索意图,并返回反映用户潜在搜索动机的语义信息。因此,如何从语义层面理解和挖掘用户真正感兴趣的信息,是当前信息搜索领域亟需解决的问题。潜在语义分析技术是一种用于知识获取和展示的信息检索代数模型,并被广泛应用于文本分类与聚类、信息抽取、信息搜索、图像检索等领域。特别是在信息搜索领域,潜在语义分析技术可以将词语和文档以某种程度上代表其语义的形式表示和存储,并用于语义搜索,从而使信息搜索系统可以在一定程度上“理解”用户的查询请求,高效地提供用户所需要的信息。本文在分析了传统的基于关键词匹配的搜索技术和其他语义搜索方法的不足的基础上,对基于潜在语义分析的语义搜索原理进行了深入研究,探讨了语义搜索的实现方法,采用了文本内容清洗、中文分词、关键词提取、潜在语义分析、语义查询扩展等信息处理技术,开发了一个基于潜在语义分析的语义搜索原型系统,从而在语义层面上理解和处理用户的查询请求,挖掘用户的真正需求,提升信息搜索系统的查准率和查全率。另外,本研究丰富和发展了潜在语义分析技术与语义搜索相结合的机制,实现了从传统的以语法为核心的搜索模式向以语义为核心的搜索模式的成功转变,高效并及时地发掘可用的信息资源,为用户提供合理的信息推荐策略。最后通过构造数据集并在语义搜索原型系统上进行训练实验和测试实验,结果表明:潜在语义分析技术可以在一定程度上挖掘词语之间的语义关系,在提取大批量文本的潜在语义信息和挖掘用户真正需要的信息方面具有较为优越的性能。因此,对潜在语义分析技术和语义搜索相关理论的研究、将潜在语义分析应用于语义搜索领域对于改善传统的搜索方式的搜索效率、发展和完善信息检索理论体系具有较为重要的意义。