论文部分内容阅读
随着互联网上信息爆炸式的增长,互联网就像是变成了一本没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。在2004年,中国互联网络信息中心(CNNIC)在京发布的第十四次中国互联网络发展状况统计报告显示:搜索引擎是用户在互联网上获取信息最主要的方式,通过搜索引擎查找相关的网站:71.9%;直接访问已知的网站:23.2%;随意浏览网站网页:2.4%;通过网站的相关链接:2.4%;其他:0.1%。搜索引擎的任务帮助用户在浩如烟海的网上信息中用尽可能少的时间找到自己感兴趣的信息。虽然现在搜索引擎技术已经有了很大发展,以谷歌、百度为代表的第二代搜索引擎已经成为了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。但是当我们在上网查询信息的时候还是经常会感觉到搜索引擎所返回的结果并不是尽如人意,其中包含了大量的冗余网页,这主要是因为目前主流的搜索引擎主要采用用户查询词与网页中的关键词精确匹配的方式来向用户返回结果。因此改进和提高搜索引擎的匹配策略,提高查询的精确率就成了研究搜索引擎技术的一个热点问题。本文采用了形式概念分析的方法,研究网页文本的匹配,文中提出一个新匹配的策略:使用更加精确和现实的概念以提高过去的基于关键词的匹配策略。通常,在信息检索系统中“关键词”是网页表示的基本元素。然而,人们对自然语义中概念的理解一般是有概念的外延和内涵定义的。本文使用自然语义的概念相似的形式概念作为网页表示的基本元素,根据从每个网页中提取出来的概念分别为每个网页建立一个概念格,并使用双向联想记忆存储器来存储这个概念格,用这些概念的外延作为形式背景的对象集合,用这些概念的内涵作为形式背景的属性集合,这样,不仅可以操纵比较小的概念格,而且可以加强信息检索系统对自然语言文本的理解能力。然后再提取这些形式概念的与查询的关键词相关的对象与属性进行匹配操作。网页的概念格用双向联想记忆存储器进行编码,这样不仅可以避免复杂的建格算法,还可以根据后续进程中对文档的理解灵活的更新网页的表示形式。本文提出的模型还使用了学习策略,通过接收用户反馈,对关键词权重进行修改,使相关文档间的相似性得以加强,不相关的文档则减弱。本文最后对提出的新匹配的策略进行了测试实验,并与布尔匹配模型进行比较,对新的匹配方法进行验证。实验的数据集包括60个中文网页和一组查询词。从每个网页中提取出一组概念作为训练集,来训练双向联想记忆存储器存储网页的概念格,以进行匹配操作。并且对学习前后的精确率和召回率进行了分析。实验表明,比起布尔模型,新匹配的策略在精确率和召回率方面有更好的表现,并且根据用户反馈进行的学习策略能够达到使得相关文档间的相似性加强,不相关的文档的减弱的效果。