论文部分内容阅读
随着互联网在全球范围内的高速发展,网络信息资源日趋丰富,而现在的互联网信息检索技术和方法还不能完全满足用户对信息准确性和有效性的要求。为提高用户查询信息的覆盖面和准确性,建立在搜索引擎之上的元搜索引擎成为目前研究的热点之一。但目前大部分搜索引擎和元搜索引擎都仅以线性列表的方式展示结果,用户在查找自己需要信息时往往效率不高。如果元搜索引擎能够将搜索结果组织为具有层次结构的类别,就能够很大程度上帮助用户快速定位所需信息,提高效率。因此,把Web数据挖掘技术应用到搜索引擎中,对搜索结果进行聚类,成为提高用户查找信息效率和准确性的有效解决方案,这可使搜索引擎上升到新的阶段。
本文在研究数据挖掘技术中的关联规则分析和聚类分析的基础上,设计了一种基于关联规则选择初始聚类中心和聚簇数的算法ARM,并在此基础上提出了改进的聚类分析算法k-means ARM和FCM_ARM;接着在对元搜索引擎技术研究的基础上实现了一个应用改进后的聚类算法的元搜索引擎MSC。
本文主要的研究工作包括以下几个方面:
(1)综述自然语言处理、信息检索领域的文档信息处理关键技术。包括:中文分词技术、文档表示模型、特征项权值计算方法和文档相似度的表示方法。
(2)分析目前常用的聚类分析算法,重点是适合对文本进行在线聚类的基于划分的k-means和FCM算法;指出它们在初始聚类中心和聚簇数选择等方面的不足。
(3)利用关联规则分析技术,提出一个初值自适应的初始聚类中心和聚簇数选择算法ARM。
实验表明该算法对于基于划分的聚类分析算法k-means和FCM是非常有效的,能明显提高聚类效果。
(4)基于所提出的初始聚类中心和聚簇数选择算法ARM,对传统的k-means和FCM算法进行改进,获得新算法k-means ARM和FCM_ARM。
实验表明改进后的算法比传统的k-means, FCM和FFT算法效果要好。
(5)设计并实现了一个带聚类处理功能的元搜索引擎MSC。该系统的搜索结果聚类模块利用了k-means_ARM和FCM_ARM算法对搜索结果进行聚类优化,实现了将搜索结果进行自动分类,能为用户快速准确地找到所需的信息。