基于DK-Means算法的文本聚类的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:yangfei223752
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术在各个领域的普及,各种应用每天产生的数据量呈指数级增长。如何有效处理这些数据,从中提取有用的知识,是迫切需要解决的问题。数据挖掘是为了满足人们对数据中所蕴涵的信息和知识的充分理解和有效应用而发展起来的一门新兴技术。聚类分析根据数据对象之间的相似度将数据集划分为几个类或者簇,是发现数据内部结构和知识的很好的方法。   聚类分析是根据样本之间的某种距离在无监督条件下的聚簇过程,利用聚类方法可以把大量的文本划分成用户可以迅速理解的簇,从而使用户可以更快地把握大量文档中所包含的内容,加快分析速度并辅助决策。聚类分析已利用在各个领域,例如,模式识别,图象处理,信息检索等多个学科。根据不同需求,聚类数据集的类型也各不相同,例如,有序数型、标量型、文本型、混合型等数据,本文主要研究了对文本类型的数据进行聚类。   本文对文本聚类中所涉及的文本降维方法和聚类算法进行了研究。首先,在文本预处理中,提出了结合词频的分词方法,提高了分词准确性的同时,为后边的文本模型的构建,文本降维等做好准备;其次,提出了基于文本相似的文本降维方法,该降维方法,通过计算文本与其他文本的相似性,计算特征词对文本类属性中的贡献度来提取与文本高度相关的词,起到了文本降维的效果,提高了文本聚类的效率和精确度;最后,提出了基于DK-Means的文本聚类算法,该方法与原有方法相比提高了聚类准确度和聚类速度。   本文首先对属于数据挖掘领域的聚类分析技术进行了介绍,然后讲述了文本聚类的相关技术,包括文本的预处理、文本表示模型、降维技术和文本聚类算法(K-Means,BIRCH,CURE,OPTICS等),再次研究了新的文本降维方法和聚类算法,对于特特征降维方法,提出了新的基于文本相似的文本降维方法。最后根据提出的算法设计和实现了文本聚类。经过测试,表明以上提出的方法,不仅在聚类的准确率和纯度方面有所提高,而且提高了文本聚类的速度。
其他文献
现代计算机通信网正进入宽带综合业务数字网(B-ISDN),其服务业务包括话音、数据、传真和视频等。每种业务都有不同的统计特性并需要不同的服务质量(QoS)。为了充分利用网络资
汽车驾驶模拟器是一种能正确模拟汽车驾驶动作,并能在主要性能上获得与实车驾驶相同感觉的仿真设备。使用驾驶模拟器进行驾驶训练不仅可以有效缓解目前我国汽车驾驶培训系统面
随着我军信息化建设的不断完善、军事通信技术的快速发展,使得建立一个集团军范围内通信部队的管理系统成为必然,因为集团军是部队作战的细分单位,是连接首长机关和基层的关
随着电信级以太网的出现,以太网现已成为一种城域网标准,被电信运营商广泛地用来提供接入业务,导致电信网变得越来越复杂。针对新的城域电信级以太网业务,开发相应的网管系统
在当今信息社会,生物特征识别已经成为一项重要的研究课题,广泛应用于各类的身份验证和鉴别应用当中。由于具备良好的生物特征特性,掌纹成为一种可用于公共安全和民用领域的
网络蠕虫是一种自动化攻击程序,它通过扫描和攻击网络上存在系统漏洞的节点主机,实现大范围的传播。网络蠕虫已经成为严重威胁网络安全的公害,发展高效实用的网络蠕虫检测技术成
随着信息化、网络化、智能化的发展,嵌入式技术得到了极大的发展,linux操作系统以其稳定性好,可靠性高,源代码公开,可剪裁,版权免费等优点,已成为嵌入式领域的一股新兴力量,
近年来无线传感器网络(Wireless Sensor Network,WSN)技术不断发展,其应用范围也不断扩大,作为WSN的承载体的无线传感器网络节点的能量消耗问题是影响节点寿命和网络性能的关
随着信息时代的来临,作为重要基础设施的Internet上的信息量呈爆炸式增长,而Internet的尽力而为服务模式已经不能适应分布式多媒体等应用对网络的性能和服务质量提出的更高要
Internet已经成为人们获取资源和信息交流的主要场所。然而,在信息量浩如烟海的Internet上寻找所需的信息,仍然是一项极富挑战性的工作。随着传统搜索引擎的发展,一方面其实用性