元搜索结果聚类优化研究与实现

来源 :华南农业大学 | 被引量 : 0次 | 上传用户：h2302

【摘要】

：

随着互联网在全球范围内的高速发展，网络信息资源日趋丰富，而现在的互联网信息检索技术和方法还不能完全满足用户对信息准确性和有效性的要求。为提高用户查询信息的覆盖面和准

【作者】

：

谭仕朝

【机构】

：

华南农业大学

【出处】

：

华南农业大学

【发表日期】

：

2010年期

【关键词】

：

元搜索引擎聚类分析算法关联规则优化分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网在全球范围内的高速发展，网络信息资源日趋丰富，而现在的互联网信息检索技术和方法还不能完全满足用户对信息准确性和有效性的要求。为提高用户查询信息的覆盖面和准确性，建立在搜索引擎之上的元搜索引擎成为目前研究的热点之一。但目前大部分搜索引擎和元搜索引擎都仅以线性列表的方式展示结果，用户在查找自己需要信息时往往效率不高。如果元搜索引擎能够将搜索结果组织为具有层次结构的类别，就能够很大程度上帮助用户快速定位所需信息，提高效率。因此，把Web数据挖掘技术应用到搜索引擎中，对搜索结果进行聚类，成为提高用户查找信息效率和准确性的有效解决方案，这可使搜索引擎上升到新的阶段。　　本文在研究数据挖掘技术中的关联规则分析和聚类分析的基础上，设计了一种基于关联规则选择初始聚类中心和聚簇数的算法ARM，并在此基础上提出了改进的聚类分析算法k-means ARM和FCM_ARM；接着在对元搜索引擎技术研究的基础上实现了一个应用改进后的聚类算法的元搜索引擎MSC。　　本文主要的研究工作包括以下几个方面：　　 (1)综述自然语言处理、信息检索领域的文档信息处理关键技术。包括：中文分词技术、文档表示模型、特征项权值计算方法和文档相似度的表示方法。　　 (2)分析目前常用的聚类分析算法，重点是适合对文本进行在线聚类的基于划分的k-means和FCM算法；指出它们在初始聚类中心和聚簇数选择等方面的不足。　　 (3)利用关联规则分析技术，提出一个初值自适应的初始聚类中心和聚簇数选择算法ARM。　　实验表明该算法对于基于划分的聚类分析算法k-means和FCM是非常有效的，能明显提高聚类效果。　　 (4)基于所提出的初始聚类中心和聚簇数选择算法ARM，对传统的k-means和FCM算法进行改进，获得新算法k-means ARM和FCM_ARM。　　实验表明改进后的算法比传统的k-means, FCM和FFT算法效果要好。　　 (5)设计并实现了一个带聚类处理功能的元搜索引擎MSC。该系统的搜索结果聚类模块利用了k-means_ARM和FCM_ARM算法对搜索结果进行聚类优化，实现了将搜索结果进行自动分类，能为用户快速准确地找到所需的信息。

其他文献

基于UML活动图的回归测试研究

回归测试是软件开发和维护期间保证软件新增加的功能或组件的质量，并保证原有的功能不受软件变更的影响的重要过程，它需要消耗大量的资源。重用已有的测试用例不仅能够减少生成

学位

UML活动图回归测试软件测试风险评估

基于Metropolis准则的免疫算法研究及其应用

人工免疫算法的发展方兴未艾,在众多领域得到了广泛的研究应用,因此深入开展这方面的研究是十分必要的。本文首先研究了生物免疫系统以及人工免疫系统的基本原理,为进行免疫

学位

免疫算法Metropolis准则MIA关联规则

垂直搜索引擎的设计

随着Internet的飞速发展，Web上的信息量越来越大，通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外，通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信

学位

利用入侵行为关联性降低异常检测的误报

入侵检测技术通过收集计算机或网络中若干关键点的信息,来监视计算机或网络系统的运行状态,以发现各种攻击企图、攻击行为或者攻击结果。入侵检测有两种主要的检测技术:误用

学位

入侵检测误报报警关联入侵行为关联性模拟退火算法序列分析马尔可夫链

基于贝叶斯模型的用户日常移动模式分析方法的设计与实现

随着移动通信技术的飞速发展，越来越多的用户在日常生活中使用手机。为了提供移动服务，移动基站会时刻监测开机用户的当前位置以及时间戳。基于基站收集到这些用户移动信息，能够

学位

移动模式分析贝叶斯模型移动增值服务广告推荐MPIMapReduce框架

嵌入式软PLC开发系统的研究

计算机数控系统正在由封闭式体系结构向开放式模块化体系结构发展，PLC(Programmable Logical Controller，可编程逻辑控制器)是实现数控机床开关量控制功能的关键模块，和传统的硬

学位

嵌入式软PLC数字信号处理器编程语言数据结构

WSN定位技术及其在矿井人员定位中的应用研究

煤矿井下环境复杂,存在多种安全隐患。近年来我国煤矿事故频繁发生,造成重大人员伤亡和经济损失,现有的煤矿安全系统已经无法满足安全生产需要。无线传感器网络(Wireless Sen

学位

无线传感器网络定位算法分区判断机制阶梯型布设

RB模型的铰链分解和线性规划方法研究

RB模型是一种随机约束满足问题模型。基于RB模型产生的难解实例被广泛应用于算法竞赛和理论研究。本文从如下两个角度研究了RB模型的难解性。　　 1.首先，本文研究了RB模型的

学位

铰链分解线性规划随机约束结构化分解

农田水分传感器网络通信协议

无线传感器网络被认为是全球未来十大技术之一。由于它在许多领域具有重要的科研价值和实用价值，在基础理论和工程技术两个层面向科技工作者提出了大量挑战性问题，从而引起了学

学位

无线传感器网络通信协议低功耗设计农田水分监测系统

基于Web的新闻事件发现与极性分析

互联网技术的不断发展,使得网络媒介已经成为了人们生活中重要的信息来源,尤其是新闻门户网站也为人们获得新闻信息提供了新的方式。据CNNIC的调查,网络媒体的使用率已经达到

学位

新闻事件发现网络媒介极性分析RIR-Crawler算法用户交互界面

元搜索结果聚类优化研究与实现

与本文相关的学术论文