论文部分内容阅读
目前搜索引擎返回查询词的结果数量巨大,而用户所需要的只是其中很少一部分内容,人们想准确地获取自己想要查询的知识越来越难。这就促使信息检索技术进一步发展。本文的中心问题是研究、开发一种新的搜索引擎导航系统为用户提供范围更小的、更接近用户需求的搜索结果。对搜索结果的导航是让用户获得更精确搜索结果,有效缩小搜索范围的一个重要手段。本文对于导航系统的研究思想是运用形式概念分析(FCA)方法,建立一个层次清晰的分类体系以便于用户充分利用搜索结果,并在搜索结果之间建立起它们的关联。通过提供精确的摘要让用户快速把握页面信息,对页面价值做出判断。通过对搜索结果的导航,让用户更迅速获得自己想要的搜索结果,有效缩小搜索范围。基于这个思想,本文做了以下研究:利用FCA对搜索结果进行二次处理,建立一个分类系统来组织搜索结果。在系统中,以文档为对象,以这些页面检索词为属性造格,通过导航树把这些关系映射到页面的导航系统中。对于搜索结果数量巨大的查询词来说,该系统能让用户缩小查找范围,可以更准确的查找到自己所需要的内容。这种分类是信息组织的重要方法和手段,对信息资源内容具有充分的揭示作用,给搜索结果建立一个层次清晰的分类体系以便于充分利用。通过对FCA在搜索引擎中的应用研究,我们课题组实现了基于FCA的搜索引擎,在该搜索引擎中,所有的网页都以对象的形式在格中组织。本文的任务是研究和实现基于FCA搜索引擎的导航系统。该导航系统的思想是对数据所在的格进行搜索。利用节点中最小上确界,格的理想和滤子的特征在格中对检索词所在概念进行确定,提取出含有搜索关键词节点集合所在的理想。搜索结果以理想的方式组织返回,既可以有效的缩小搜索范围保持应返回的搜索内容,也可以保存各搜索结果(节点)之间的关系。这个导航具有可以扩大缩小搜索内容的功能。这个导航系统中,可以将搜索结果的扩大和缩小揭示本类的内容范围,既可以浏览找到自己想要的知识也可以发现新的知识,揭示隐藏较深的内容。在结果的导航中,为了让用户对页面的价值进行迅速有效的判断,本文研究了文本信息摘要的自动提取,并提出了篇章结构和统计相结合的自动摘要系统。在这种方法中,把对摘要的提取和现阶段网页中文章的结构相结合,通过对网页或者文档中语句等信息位置的判定和统计出的句子所包含的词汇等共同计算句子权重,以供提取摘要。该系统得到了实现,并且此方法的优良性得到了验证。在搜索引擎的导航方面,本文主要的贡献是:(1)对搜索结果的自动分类,并验证了用FCA自动分类的有效性;(2)设计基于FCA的概念搜索引擎搜索结果的导航系统;(3)设计了一种统计和篇章结构相结合的摘要的自动提取方法,实现并验证了其有效性。