基于粒子群优化算法(PSO)的文本聚类算法研究

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:freebird23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代互联网信息技术的进一步发展和移动智能设备的不断普及,互联网上的数据资源在急速增长,而文本作为信息的主要展现形式,其中包含大量的技术性信息和隐藏的知识。海量数据资源蕴含的丰富价值与企业提高生产效率的需求吸引了大量研究学者在数据挖掘领域投入大量精力进行研究,文本聚类作为数据挖掘的重要组成部分也一直备受关注。像K-means算法、K-means++算法等传统聚类算法高度依赖初始聚类中心,自身更新方式的也存在局限性,在解决高维度的文本聚类问题时可能出现聚类效果差,算法不稳定等缺陷,从而无法达到用户期待的聚类效果。粒子群优化算法(PSO)是一种典型的基于启发式的群体智能算法,其因种群去中心化、自适应能力强和高效率的种群演化使得该算法在一定程度上克服了K-means算法的缺点,但该算法的更新效率、全局优化能力、算法稳定性仍有进一步提升的空间。针对以上问题本文提出一种改善种群更新效率的新型差分进化粒子群算法,并将其应用在文本聚类上。本论文主要对文本聚类的处理流程、群体智能优化和聚类过程进行研究。首先对文本聚类所涉及的文本预处理、文本表示模型、文本相似度计算方式和聚类评价指标进行介绍,并详细分析了这些过程的要求和主要技术。然后介绍了群体智能优化的相关概念与特点以及粒子群优化算法的背景、原理、流程、优缺点和改进策略。随后针对算法在种群更新过程对聚类中心排列顺序的一致性普遍忽视的问题,提出一种基于个体间聚类中心相似度矩阵的自适应调整聚类中心排列顺序的方法,对涉及个体更新过程中的任意一对个体包含的聚类中心排列顺序标准化,尽可能保证同一维度上的聚类中心相似度最大,从而提高个体的更新效率。最后通过分析传统粒子群优化算法与差分进化算法各自的局限性和特点,充分发挥不同算法的优点与适用性,提出了性能更好,表现更稳定的一种新型差分进化粒子群算法。该算法以PSO算法为基础,在PSO算法种群更新停滞,搜索空间受限时,利用DE算法的交叉、变异等操作对种群进行扰动,增加种群的多样性,提高算法的全局优化能力。最后在文本挖掘通用的数据集上对该算法进行测试,验证了该算法的有效性与可行性。
其他文献
飞行时间三维成像法作为三维成像的重要研究方法之一,具有高精度、高帧率、测量距离弹性大的优点。因此使用飞行时间法进行三维成像具有广泛的应用场景,其中目标提取作为其他
随着航空事业的飞速发展,对航空发动机压气机关键位置的气压进行实时准确的监测,是改善其推进性能,保障安全工作环境的关键性环节。光纤F-P传感器以其抗电磁干扰、耐高温等优
为了探究承德市兴隆县六里坪林场主要树种形成林分的生长特性及效益特征,在河北省承德市兴隆县六里坪林场,选取了油松纯林、蒙古栎纯林和油松蒙古栎混交林三种典型林分为研究对象,通过标准地调查法、树干解析等手段对不同林分的林分结构、生长规律及生物多样性特征进行了系统研究,主要研究结果如下:(1)三种不同森林类型胸径结构分布曲线均呈现单峰山状分布,随着林木径阶不断增长,株数均出现递减趋势。但三者有显著差异:油
会议
过渡金属氧化物材料中电子之间有强烈的相互作用,电荷、自旋、轨道和晶格自由度之间存在复杂而精致的共存和竞争,导致多种电子有序相和丰富的相变行为。这些相变往往伴随着宏
1927-1937年间,我国的学校音乐教育得到了长足的发展,学校中的各类课外音乐团体也较为活跃。并且,这一时期的口琴音乐得到了大范围的推广普及,在音乐教育领域产生了相当大的
华北落叶松是燕山地区主要造林树种之一,具有寿命长、抗性强、生长快、材质好、用途广的特性,可提供高质量的无节材,是重要的用材树种。但是由于华北落叶松生长速度较快,自然整枝较差,导致其木材节子较多,影响美观及其加工利用。修枝是人工林抚育的主要措施,对无节材培育具有重要意义,但修枝高度的问题目前主要为定性描述,缺乏定量标准,并且对不同高度枝叶功能研究也不够深入。因此,本文以河北省茅荆坝林场华北落叶松人工
随着材料科学和器件物理的发展,有源矩阵电致发光二极管(Active-Matrix Organic Light-Emitting Diode,AMOLED)显示技术逐渐成熟,越来越多地应用在消费级显示器以及照明领域
作为改革开放后我国第一批设立的四个经济特区之一,厦门经济社会发展取得显著成就。但是,随着工业化、城市化、市场化进程的不断推进,经济规模的进一步扩大,能源资源的匮乏越
本文结合汽车和轨道车辆相关碰撞规范,以城市有轨电车为研究对象,以减小有轨电车攻击性,保护汽车及乘员,提高有轨电车与乘用汽车碰撞兼容性为目的,以通用有限元分析软件为分析工具,采用有限元仿真分析方法对有轨电车与汽车的碰撞兼容性进行研究。围绕该研究对象,本文进行了相关问题的研究:首先,进行有轨电车与汽车的碰撞模型简化及合理性研究。建立有轨电车与汽车的整体碰撞模型,将有轨电车以35km/h的碰撞速度碰撞汽