【摘 要】
:
文本聚类属于无监督的机器学习方法,是自然语言处理领域的一大研究热点,已成为文本信息进行有效地组织、摘要和导航的必要环节。谱聚类是目前研究比较多、应用十分广泛的一种
论文部分内容阅读
文本聚类属于无监督的机器学习方法,是自然语言处理领域的一大研究热点,已成为文本信息进行有效地组织、摘要和导航的必要环节。谱聚类是目前研究比较多、应用十分广泛的一种聚类算法,谱图划分理论是建立谱聚类算法的理论基础,谱算法与k均值、EM算法等传统的聚类分析算法相比,它能够辨认非凸状空间分布的样本数据,即谱算法可以在任意形状分布的样本空间上进行聚类,且易得到全局最优解。论文详细地描述了文本聚类的关键技术、谱聚类方法的理论基础和经典的谱聚类算法等内容,在深入研究谱聚类算法相关的国内外文献的基础上,以构造相似矩阵为切入点对传统的谱聚类算法提出改进方法。传统谱聚类算法在构造相似矩阵时大多使用基于距离度量文本间相似性,论文分析了这种方法存在缺陷,探究了基于K近邻的相似性度量方法,并将其引入谱聚类算法中,提出KNNSC算法。另外,针对传统谱聚类算法对输入数据顺序敏感的问题,论文提出利用粒子群优化算法执行谱聚类算法最后的k-means聚类步骤,将粒子群优化算法引入KNNSC算法中,提出PSO-KNNSC算法。论文的实验部分首先完成了语料库的选择、文本的预处理、文本特征选择、构建文本向量空间表示模型等操作,然后分别利用k-means算法、KNNSC算法和PSO-KNNSC算法做了多次文本聚类实验,实验结果表明,改进的算法是有效的且能得到较好的聚类效果。
其他文献
随着视频会议系统蓬勃兴起,其安全性需求越发紧迫。根据这种发展趋势,对在视频会议环境下的视频保密性进行了研究。由于视频数据具有数据量大、冗余度高、实时性强等特点,故基本
随着网络技术的广泛应用,网络安全成为越来越受人们关注的问题。目前最流行的网络安全解决方案是入侵检测系统和防火墙技术,但是由于入侵检测系统存在产生大量的报警(Alert)和
随着网络的普及和虚拟现实技术的发展,三维虚拟试衣技术已成为国内外学术界普遍关注和研究的重要课题。三维服装虚拟试衣系统(3D Garment Virtual Try-On System)主要包括三个
常用的多目标优化方法自身的不足及其在实际应用中存在的诸多困难,一直阻碍着多目标优化方法的发展。在20世纪80年代中期,进化算法开始应用于解决多目标优化问题。目前涌现了
行人异常检测是当今世界智能视觉系统研究中一个十分活跃的新领域,应用到地铁、道路、超市出入口等环境中有着明显的社会和经济效益。将远程控制与计算机视觉分析技术相结合使
由于无线传感器网络中节点的能源、计算能力和带宽都非常有限,因此设计能够有效节约能源、延长网络生命周期的协议成为其研究的重点之一。从减少网络能量消耗的角度出发,本文
互联网的迅速发展、信息网络的应用普及、信息传输媒体的数字化演变进程的推进,使得电子图书馆、在线服务和电子商务等先进的多媒体服务有了十分广阔的前景。然而,在全球一体
随着信息技术的迅速发展,大量文本信息不断涌入我们的视野,在这样一个信息化时代里,如何快速有效地在这浩瀚的信息海洋里找到需要的东西是亟待解决的问题。目前的检索效果不是很
本文首先针对P2P网络中的核心问题一资源定位算法,做了深入的分析和探讨。针对不同类型的P2P网络,本文分析,比较了三种最典型的对等网资源定位算法—集中式对等网络算法、非
公理设计—面向对象软件设计框架是设计公理应用于软件设计的主要成果,它在功能域和结构域之间自顶向下进行“之字形”分解映射。每层的分解映射过程,都要依据设计矩阵分析设计