元搜索结果聚类优化研究与实现

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:h2302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在全球范围内的高速发展,网络信息资源日趋丰富,而现在的互联网信息检索技术和方法还不能完全满足用户对信息准确性和有效性的要求。为提高用户查询信息的覆盖面和准确性,建立在搜索引擎之上的元搜索引擎成为目前研究的热点之一。但目前大部分搜索引擎和元搜索引擎都仅以线性列表的方式展示结果,用户在查找自己需要信息时往往效率不高。如果元搜索引擎能够将搜索结果组织为具有层次结构的类别,就能够很大程度上帮助用户快速定位所需信息,提高效率。因此,把Web数据挖掘技术应用到搜索引擎中,对搜索结果进行聚类,成为提高用户查找信息效率和准确性的有效解决方案,这可使搜索引擎上升到新的阶段。   本文在研究数据挖掘技术中的关联规则分析和聚类分析的基础上,设计了一种基于关联规则选择初始聚类中心和聚簇数的算法ARM,并在此基础上提出了改进的聚类分析算法k-means ARM和FCM_ARM;接着在对元搜索引擎技术研究的基础上实现了一个应用改进后的聚类算法的元搜索引擎MSC。   本文主要的研究工作包括以下几个方面:   (1)综述自然语言处理、信息检索领域的文档信息处理关键技术。包括:中文分词技术、文档表示模型、特征项权值计算方法和文档相似度的表示方法。   (2)分析目前常用的聚类分析算法,重点是适合对文本进行在线聚类的基于划分的k-means和FCM算法;指出它们在初始聚类中心和聚簇数选择等方面的不足。   (3)利用关联规则分析技术,提出一个初值自适应的初始聚类中心和聚簇数选择算法ARM。   实验表明该算法对于基于划分的聚类分析算法k-means和FCM是非常有效的,能明显提高聚类效果。   (4)基于所提出的初始聚类中心和聚簇数选择算法ARM,对传统的k-means和FCM算法进行改进,获得新算法k-means ARM和FCM_ARM。   实验表明改进后的算法比传统的k-means, FCM和FFT算法效果要好。   (5)设计并实现了一个带聚类处理功能的元搜索引擎MSC。该系统的搜索结果聚类模块利用了k-means_ARM和FCM_ARM算法对搜索结果进行聚类优化,实现了将搜索结果进行自动分类,能为用户快速准确地找到所需的信息。
其他文献
回归测试是软件开发和维护期间保证软件新增加的功能或组件的质量,并保证原有的功能不受软件变更的影响的重要过程,它需要消耗大量的资源。重用已有的测试用例不仅能够减少生成
人工免疫算法的发展方兴未艾,在众多领域得到了广泛的研究应用,因此深入开展这方面的研究是十分必要的。本文首先研究了生物免疫系统以及人工免疫系统的基本原理,为进行免疫
随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外,通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信
学位
入侵检测技术通过收集计算机或网络中若干关键点的信息,来监视计算机或网络系统的运行状态,以发现各种攻击企图、攻击行为或者攻击结果。入侵检测有两种主要的检测技术:误用
随着移动通信技术的飞速发展,越来越多的用户在日常生活中使用手机。为了提供移动服务,移动基站会时刻监测开机用户的当前位置以及时间戳。基于基站收集到这些用户移动信息,能够
计算机数控系统正在由封闭式体系结构向开放式模块化体系结构发展,PLC(Programmable Logical Controller,可编程逻辑控制器)是实现数控机床开关量控制功能的关键模块,和传统的硬
煤矿井下环境复杂,存在多种安全隐患。近年来我国煤矿事故频繁发生,造成重大人员伤亡和经济损失,现有的煤矿安全系统已经无法满足安全生产需要。无线传感器网络(Wireless Sen
RB模型是一种随机约束满足问题模型。基于RB模型产生的难解实例被广泛应用于算法竞赛和理论研究。本文从如下两个角度研究了RB模型的难解性。   1.首先,本文研究了RB模型的
无线传感器网络被认为是全球未来十大技术之一。由于它在许多领域具有重要的科研价值和实用价值,在基础理论和工程技术两个层面向科技工作者提出了大量挑战性问题,从而引起了学
互联网技术的不断发展,使得网络媒介已经成为了人们生活中重要的信息来源,尤其是新闻门户网站也为人们获得新闻信息提供了新的方式。据CNNIC的调查,网络媒体的使用率已经达到