【摘 要】
:
文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。针对大规模高维的文本数据,如何实施有效的文本聚类算法是数据挖掘领域的研究热点。文本数据的
论文部分内容阅读
文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。针对大规模高维的文本数据,如何实施有效的文本聚类算法是数据挖掘领域的研究热点。文本数据的特殊性,即文本形式上的非结构化,使得文本具有高维性和稀疏性的特点。近义词和多义词问题也是文本数据特有的自然语言现象。这些问题使文本聚类具有很高的时间复杂度,并干扰了聚类算法的准确性,使得文本聚类的性能急剧下降。首先,本文采用潜在语义索引和遗传算法相结合达到消除上述问题的目的。潜在语义索引中的奇异值分解技术将原始特征空间转化到相应较小的潜在语义空间上,这样就可以消除词语用法的多样性和词语使用的随意性。遗传算法优化特征选取,可以在无先验知识的情况下对特征向量进一步降维,从而降低聚类复杂度。其次,在文本聚类算法的研究中,本文提出一种基于可变长染色体编码遗传算法的K-中心聚类算法。由于K-均值算法对孤立点敏感,所以本文采用基本的K-中心聚类算法。K-中心算法同样需要事先确定k值,而聚类结果对k值依赖性很大。采用可变长染色体编码的遗传算法进行聚类,使得聚类算法不会受限于初始种群的好坏。最后,通过仿真实验证明了采用遗传算法进行降维的优越性,并且,通过对比实验分析并证明了本文所提的改进算法的有效性,得出改进算法优于其它算法的结论。
其他文献
GPS(Global Positioning System)车载导航技术是GPS技术随着嵌入式技术、汽车工业的迅速发展而逐步兴起的,广泛用于交通监控,车辆导航等方面。在我国,市场上各种基于GPS导航的产
在机器学习领域中,当要分类的数据集类别分布差别较大时,就称为不平衡数据分类。它是目前在机器学习和数据挖掘领域里一个研究热点。不平衡分类问题在现实生活中经常出现,而传统
近年来,观点摘要技术为世界各地的消费者带来了极大的便利。从大量的在线商品评论中,观点摘要技术自动为给定商品的大众观点生成摘要。然而,当前的观点摘要系统为每个商品所提供
面向时间序列建模及预测应用,针对RBF神经网络训练中结构设计问题和权值修正问题,本文分别提出改进的单目标RBF神经网络设计方法和改进的多目标RBF神经网络设计方法。论文所
随着现代科学技术的的高速发展,可穿戴计算机已经成为了现代计算机的一个重要的发展方向。可穿戴计算机具有微型化、可穿戴性、可移动性等特点,在工业、军事、医疗监护等领域
随着社会数字化程度的的提高以及网络技术的迅猛发展,各种多媒体产品,如音频、图像、视频等层出不穷,极大的满足了人们的娱乐、沟通的需求。但是,由于网络的开放性、数字产品
现实中的许多应用,如社交网络、P2P信贷、生物信息、社交投资等许多数据库系统都是构成异构信息网络。因此,针对异构信息网络的数据挖掘任务是当前热门的且充满挑战的研究新方
语义Web作为目前Web的一个延伸,目标是使Web上的数据具有机器可识别的语义,便于人机之间的交互与合作。然而其实现面临着语义互联、规范组织和智能聚合等理论和技术障碍。为
随着经济全球化的发展,企业的采购、生产和销售日趋国际化。市场竞争日益加剧,越来越多的企业意识到传统的生产管理模式与多变的市场不相适应,于是企业开始寻求适合自身发展的新
面向运动目标的视觉分析是计算机视觉领域最活跃的研究主题之一,在高级人机交互、安全监控、视频会议、医疗诊断及基于内容的图像存储与检索等方面具有广泛的应用前景。运动