消息传递聚类算法研究及其在文本聚类中的应用

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:okyshishuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是一种重要的无监督学习方法,通过计算样本间的相似度来划分数据,由于其简单、高效的特点,在多个领域得到了广泛的应用,如图像分割、推荐系统、文本聚类等。本文主要研究了消息传递聚类算法(Affinity Propagation Clustering Algorithm,AP),该算法无需预设初始聚类中心,通过投票的方式,将最合适的样本定为中心点,但它对大规模数据集聚类效果不佳,且无法有效聚类非凸数据集。针对上述问题,提出了改进方案,并将改进后的算法应用到文本聚类中,获得了较好的结果。具体的工作内容如下:(1)针对AP算法在大规模数据集下运行效率低,以及准确率低的问题,本文提出了一种多层次AP聚类算法(A Multi-level Affinity Propagation Clustering Algorithm,MLAP)。该算法分为三个阶段:首先,对数据集进行K近邻密度计算,每次选取密度最大的点作为Canopy算法的初始聚类中心点,通过阈值参数判断将数据集进行粗分;其次,选取粗分后每个簇的中心点作为新的数据集Y,利用AP算法对数据集Y进行聚类;最后,将两次运行的结果合并,完成聚类。所提的改进算法,不仅提升了准确率,还减少了运行时间,在人工数据集以及UCI数据集上的实验均验证了该算法的有效性和高效性。(2)针对AP算法无法对非凸数据集进行良好聚类的问题,本文提出了一种利用概率密度函数对数据样本进行密度估计的合并策略算法(Improved Affinity Propagation Clustering Algorithm Based on Merge Strategy,APM)。该算法首先利用AP算法对数据集进行预聚类,获得粗分类的数据集;其次,计算子簇之间的最近邻关系,对最近邻居子簇进行概率密度估计,将满足阈值条件的子簇进行合并,不断迭代,直到没有可合并的子簇为止。实验结果表明,本节所提出的改进方案,在非凸数据集上得到了较好的结果,并且减小了对参数的依赖性。(3)将APM聚类算法应用到文本数据集上,实验选取THUCNews新闻数据集。首先,对文本数据进行分词、去停用词处理,然后,提取特征、计算词权,再使用APM算法对权重矩阵进行聚类,最终得到不同新闻主题的类别划分。经过实验对比发现,所提算法具有较好的效果,在文本聚类领域具有一定的应用价值。
其他文献
日益增长的学术数据为众多学者提供了有利帮助,学者们在已有研究工作的基础上不断改进创新,推动了科学研究的进步。然而另一方面,在海量的文献中快速且准确的找到适合自己研究方向的科研文献对学者来说也是一件非常困难的事情。近年来借助学术数据进行文献个性化推荐研究逐渐引起学者们的关注,然而现有的文献个性化推荐工作主要基于文献内容的相似性,而忽略了学者本人的研究领域、研究机构等重要信息,导致推荐结果个性化不足且
学位
随着混合学习的推进,富媒体技术环境带来的学生认知负荷增加问题引发人们关注。为探究混合学习情境下认知负荷对学习投入的影响,本研究基于某中学293位学生的问卷调查结果及其在线学习行为投入数据,利用结构方程模型,探究在线学习行为在心理投入对学习满意度影响中的中介作用,并采用多群组分析法检验认知负荷在其中的调节作用。研究发现,混合学习情境下学生的实质性在线学习投入有限;心理投入与在线学习行为投入对学习满意
期刊
局部社区检测基于用户给定的查询节点集来探索局部图结构,可以有效地支持个性化社区发现,在现实生活场景中具有广泛应用。属性网络是局部社区检测的重要研究对象,这类网络通常由附着属性的节点相连形成。属性网络上的局部社区检测具有如下挑战:一是种子依赖问题,即以位于边界或社区重叠部分的节点进行查询不能得到令人满意的结果;二是仅将属性信息简单视为边权重(如:属性相似度等)而无法揭示复杂语义。本文研究了两种属性辅
学位
本文以建国初期(1949)年也是天津解放之年至1966年的天津戏曲团体为研究对象,力图通过相关文献的整理、归纳、分析、评价,来展现1949-1966年天津的京剧、河北梆子、评剧早期在天津的传入与发展以及三大剧种团体的建立,由于天津优越的地理位置,众多优秀的戏曲艺人在津表演,由此在津演出的外地戏曲团体也成为天津戏曲音乐发展的一个重要条件。本文由绪论、正文五章和结论组成:绪论部分重点介绍论文所属的研究
学位
唐剧《人影》创作于1998年,是由河北剧作家陈家和进行编剧、郭学文负责导演的原创优秀现代剧作品。2002年作为第三届中国评剧艺术节祝演剧目首次与观众见面,广受好评。是唐剧作品中较为杰出的代表作品之一。本文对唐剧《人影》的分析,与以往文章不同之处是对《人影》的一些重点唱段进行分析与研究,通过对重点唱腔、音乐、表演等方面的分析,进而总结这部戏的艺术特点及创作经验,研究创作手法和理念,思考唐剧多年的成败
学位
在线学习作为“互联网+教育”的产物,具有不受学习地点限制等优势,已经成为主流的学习方式之一。由于在在线学习环境中,教师与学生之间在空间上处于分离状态,使得教师无法准确地了解学生在学习过程中产生的情感。虽然基于深度学习的情感计算为自动分析人们的情感状态提供了技术支持,但是目前对于学生情感状态的识别大多基于单个模态实现,容易出现识别不稳定等问题。基于此背景,本文采用面部表情识别和文本情感分析技术,将图
学位
随着物联网技术的高速发展,无线传感器网络(Wireless Sensors Network,WSN)作为物联网的感知层,由于其具有感知性强和实时传输数据等特点,被广泛应用于国防安全、工厂监测、医疗服务、健康监测、自然灾害监测等众多领域。在大规模部署应用无线传感器网络时,由于客观条件限制或受到恶意攻击等因素的影响,导致节点分布不均匀,节点过早死亡,从而使网络中出现能量损耗不均衡与覆盖空洞等问题,严重
学位
河北省邢台市广宗县地区流传着一个名为“太平道乐”的民间音乐品种。据以往文献介绍,“太平道乐”由来与东汉末年巨鹿人张角创立的“太平道”有关。本文以广宗地区最具代表性的太平道乐艺人张玉保、以张玉保为核心组成的乐班、该乐班的曲牌演奏以及考察过程中见到的艺人收藏的谱本等为研究素材和主要研究对象,通过对使用曲牌的分类与溯源,分析太平道仪式与音乐之间的关系、用乐特征等问题。本文由引言、正文、结语三部分构成。引
学位
慢行交通系统中把步行、非机动车等慢速出行方式作为城市交通的主体,引导居民采用“慢行交通+公共交通”出行方式,缓解交通拥堵,减少尾气污染,营造舒适、清洁、宁静的城市环境,符合新形势下“以人为本、低碳绿色、可持续”的城市发展理念。本文以淮北市相山老城区的慢行交通系统为研究对象,分析现状存在的问题,提出改善策略,以期为类似城市慢行交通系统提供一定的参考意义。
期刊
目的 综合考虑餐饮企业方和顾客方需求,确定公共餐厅儿童餐椅设计的客户需求重要度,为设计出多方客户满意的餐椅提供设计参考。方法 首先通过对餐饮企业方相关人员和就餐顾客进行用户访谈,获取双方客户共同需求,即核心需求,其次通过熵权法获取餐饮企业方相关人员对于核心需求的重要度,再次运用模糊卡诺模型得到就餐顾客方对核心需求的类别要求,最后引入重要度调整函数,对初始重要度进行调整,确定综合考虑多方客户需求的最
期刊