基于形式概念分析的网页文本匹配研究

来源 :西华大学 | 被引量 : 0次 | 上传用户：cqc465330937

【摘要】

：

随着互联网上信息爆炸式的增长,互联网就像是变成了一本没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。在2004年,

【作者】

：

邓波

【机构】

：

西华大学

【出处】

：

西华大学

【发表日期】

：

2008年期

【关键词】

：

搜索引擎信息检索形式概念分析双向联想存储器网页文本匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网上信息爆炸式的增长,互联网就像是变成了一本没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。在2004年,中国互联网络信息中心(CNNIC)在京发布的第十四次中国互联网络发展状况统计报告显示:搜索引擎是用户在互联网上获取信息最主要的方式,通过搜索引擎查找相关的网站:71.9%;直接访问已知的网站:23.2%;随意浏览网站网页:2.4%;通过网站的相关链接:2.4%;其他:0.1%。搜索引擎的任务帮助用户在浩如烟海的网上信息中用尽可能少的时间找到自己感兴趣的信息。虽然现在搜索引擎技术已经有了很大发展,以谷歌、百度为代表的第二代搜索引擎已经成为了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。但是当我们在上网查询信息的时候还是经常会感觉到搜索引擎所返回的结果并不是尽如人意,其中包含了大量的冗余网页,这主要是因为目前主流的搜索引擎主要采用用户查询词与网页中的关键词精确匹配的方式来向用户返回结果。因此改进和提高搜索引擎的匹配策略,提高查询的精确率就成了研究搜索引擎技术的一个热点问题。本文采用了形式概念分析的方法,研究网页文本的匹配,文中提出一个新匹配的策略:使用更加精确和现实的概念以提高过去的基于关键词的匹配策略。通常,在信息检索系统中“关键词”是网页表示的基本元素。然而,人们对自然语义中概念的理解一般是有概念的外延和内涵定义的。本文使用自然语义的概念相似的形式概念作为网页表示的基本元素,根据从每个网页中提取出来的概念分别为每个网页建立一个概念格,并使用双向联想记忆存储器来存储这个概念格,用这些概念的外延作为形式背景的对象集合,用这些概念的内涵作为形式背景的属性集合,这样,不仅可以操纵比较小的概念格,而且可以加强信息检索系统对自然语言文本的理解能力。然后再提取这些形式概念的与查询的关键词相关的对象与属性进行匹配操作。网页的概念格用双向联想记忆存储器进行编码,这样不仅可以避免复杂的建格算法,还可以根据后续进程中对文档的理解灵活的更新网页的表示形式。本文提出的模型还使用了学习策略,通过接收用户反馈,对关键词权重进行修改,使相关文档间的相似性得以加强,不相关的文档则减弱。本文最后对提出的新匹配的策略进行了测试实验,并与布尔匹配模型进行比较,对新的匹配方法进行验证。实验的数据集包括60个中文网页和一组查询词。从每个网页中提取出一组概念作为训练集,来训练双向联想记忆存储器存储网页的概念格,以进行匹配操作。并且对学习前后的精确率和召回率进行了分析。实验表明,比起布尔模型,新匹配的策略在精确率和召回率方面有更好的表现,并且根据用户反馈进行的学习策略能够达到使得相关文档间的相似性加强,不相关的文档的减弱的效果。

其他文献

一种反馈控制机制在EDF算法上的应用

实时调度算法是嵌入式实时系统设计和实现的关键问题之一,也是保障实时系统两个必备特性(时限性和可靠性)的重要方法,是实时系统中重要而活跃的研究领域。在众多的实时调度算

学位

嵌入式实时系统实时调度EDF调度算法自适应单神经元PID反馈控制

针对残缺IP网络的链路预测技术研究

在对非合作目标网络进行被动的拓扑测量时,往往需要通过捕获大量的网络数据包进行分析还原。通过对还原出的残缺IP网络进行链路预测,就可以有针对性地传回一些网络报文数据,

学位

IP网络链路预测拓扑还原

面向四方物流服务的嵌入式智能车载终端的设计与实现

随着物流产业的飞速发展,对物流信息化及信息精准性的要求也越来越高,基于传统通信及信息采集方式的车辆物流开始显得力不从心,特别是“第四方物流”的提出,对物流过程的信息

学位

嵌入式Linux车载终端GPRSGPS

PBASQ：一种基于划分的Skyline查询算法

Skyline查询作为数据挖掘的重要分支，广泛应用于多标准决策、可视化和用户参考查询等领域。近年来，在数据库和信息检索研究领域，有效计算Skyline的问题已经引起国内外研究者的广

学位

Skyline查询算法数据挖掘数据划分PBASQ算法

基于动态策略的粒子群优化算法研究

粒子群优化算法PSO是一种基于群智能的优化方法。该算法受启发于社会心理学和人工生命中的相关观点,模仿个体之间的社会交互,即现实社会中个体模仿周围更成功个体行为的方式

学位

粒子群优化算法设计框架动态策略个体记忆邻域拓扑

作业图形拓扑关系识别技术的研究与开发

作业是教学过程中的一个重要环节,现代教育技术的迅猛发展以及传统作业技术手段的落后使得作业环节技术手段亟待改革。远程作业系统在作业技术手段改革方面进行了有益的尝试,

学位

定性描述特征分析消噪泛化拓扑

XML模式到概念模型的转换方法与工具研究

XML(eXtensible Markup Language)是一种进行数据表示和交换的通用格式,它已在Internet上和企业内部得到了广泛应用。XML模式是XML应用的基础,为了描述XML文档的语法和结构,

学位

XMLXML Schema模型转换XUML算法

移动IPv6切换技术的研究及仿真

随着因特网和无线通信技术的发展，人们需要在任何地方、任何时候都能获得互联网服务。为此IETF(Internet Engineering Task Focre)制定了移动IPv6，在全球互联网范围内提供移动

学位

移动IPv6移动数据移动主机移动节点层次切换

基于Agent的可拓策略生成系统的研究与实现

随着社会经济和信息技术的飞跃发展,决策所涉及的系统越来越复杂,要考虑的参数越来越多,可供选择的策略难以计数,仅仅靠人脑生成策略、进行决策已显得无力。人工智能正处在蓬

学位

可拓学Agent可拓方法策略生成

路面三维模型真实感显示技术研究

建立道路的三维模型是交通勘测领域重要的研究内容,道路网密度的增大使道路养护维修成为重要的基础工作,传统道路养护工作几乎全部依赖人工完成,为了提高道路质量测量效率,相

学位

三维路面线阵相机纹理映射法线映射

基于形式概念分析的网页文本匹配研究

与本文相关的学术论文