文本聚类算法的参数设置问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:wagegea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是多种学科相结合的产物,它集合了数据库技术、人工智能、机器学习等多学科发展成果,是一种理论性和应用性都很强的技术。作为一门多学科综合应用技术,此项技术把多门技术结合起来加以应用,包括最新的人工智能技术,以及机器学习,还包括传统数据库技术,通过对信息的挖掘和模式的识别,由计算机按照某种方法自动生成,把数据中发现未知的、具有潜在应用价值的信息识别出来,解决数据量大而知识贫乏的矛盾。目前这一技术已在商业、金融、保险、医疗等多个领域产生了巨大的效益。  目前文本聚类技术在算法设计方面取得了大量成果,并形成了自己的一套理论和方法体系,作为非监督学习问题中的典型问题,文本聚类算法用不同的数据分析方法,设计研发出众多聚类算法,常见的由划分方法、层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法等,这些算法都在特征选取、分类计算等技术环节给出了解决方案,在性能和质量上都有不错的表现。  这些算法在文本聚类的主要步骤都差不多,只是在各个步骤的处理实现上方法不同,因此也都有了各自优点和缺点。比如目前比较流行的K-Means算法,其优点和缺点都很明显,为此很多研究者提出多种改进算法。  在详细分析了这些不同类型的文本聚类算法,并总结他们的优点和缺点的基础上,提出了一个新的算法设计思路:综合多种不同类型算法,针对不同的需求,在聚类的不同阶段使用不同算法混合计算。  进而,针对K-Means算法的K参数选取问题,设计了一种混合计算方法,有效的提高了K-Means算法的聚类质量。此算法在特征选取阶段使用了基于密度的聚类算法,使得K-Means算法的初始值选取避开了孤立点,同时在聚类阶段仍然使用划分法,使得整个算法兼顾了时间和质量上的平衡,从而取得了更佳的聚类结果。
其他文献
随着高等教育事业在我国的快速发展,高校的固定资产规模不断扩充,管理难度也更大。建立以信息技术、计算机技术和互联网技术支持的现代资产管理系统,实施资产管理信息化,有利
在服务执行过程中,由于服务系统内外部环境面临的各种不确定性事件,导致服务可能无法按计划执行,或者无法满足用户的价值期望。在软件服务上,体现在客户端程序或服务端程序出现了
这几年来,信息科技不断发展和进步,计算机网络不断普及和推广,同时广大网民也面临着严重的网络安全问题,各种网络非法入侵活动F]益猖狂。虽然当前计算机网络采取了诸多防范技
随着信息和通信技术的迅速发展,无线网络在人们生活中的地位日益重要。未来网络发展的必然趋势就是网络与网络之间能够进行互联互通,同时应用趋于移动及普适。目前,网络表现出越
互联网科技的飞速前进,社会网络已经与每个人密不可分,社会网络中包含大量个人或组织的相关信息,社会网络分析者和数据挖掘者需要分享这些信息以获得对各个领域有用的知识。社会
近年来,随着车载设备、移动网络的高速发展,公民生活水平的不断提高,人们对车载播放设备的需求呼之欲出。本文选择了Android系统作为平台,设计研发了一套基于Android的车载多
随着多核处理器的广泛应用,内核之间有效同步问题成为并行编程的一个难题。传统的锁同步不能满足多线程编程的要求,事务存储作为一种共享资源同步的新模型被提出。因其具有较强
随着网络上信息量的飞速增加,怎样从巨大的信息宝库中有效地查找到符合用户需求的信息逐渐成为人们关注的焦点。在信息检索领域中,查询扩展是解决词语不匹配问题并提高检索效率
随着经济全球化的不断发展,跨语言交流的需求不断增长,使用机器翻译实现自然语言的自动翻译有很大的需求。近年来机器翻译技术不断进步,能够满足基本的翻译的需求,但是用户对翻译
测试和调试是保证软件质量的重要方法,目前,许多重要的测试和调试方法均以执行距离的度量为基础,然而现有的基于执行距离度量的调试和回归测试研究尚存在许多问题。在调试方面,基