基于群体智能的文本聚类技术研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:caifh8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的普及和发展,网络上的资源越来越丰富,以电子形式存在的文本成为人们获取信息的主要来源,面对海量的信息资源,需要对其进行有效的组织和管理,以利于主题发现和信息检索。文本聚类是一个将文本集分组的全自动处理过程,是一种无监督的分类方法,根据文本自身的特点自动分成若干类,使得同类文本的相似性尽可能大、不同类文本的相似性尽可能小。特征选择和聚类算法是文本聚类技术的重要组成部分,本文针对这两部分展开研究。  首先,针对聚类缺乏类别的信息,无监督的特征选择方法很难选择出具有区分力特征词的问题,提出了一种集成的文本聚类无监督特征选择方法,将在文本分类领域成功运用的有监督特征选择方法应用于文本聚类领域。该方法首先利用K-Means聚类算法在选择不同K值得到不同聚类结果的基础上获得类别的信息,再利用有监督的特征选择CHIR统计方法选择出最优的特征子集。  其次,针对蚁群文本聚类算法中蚂蚁移动的随机性导致散点过多、算法收敛速度较慢等问题,提出了一种基于信息素的蚁群快速文本聚类算法。该算法利用信息素控制蚂蚁随机移动的策略,使蚂蚁始终朝着信息素浓度较高的方向移动,即蚂蚁经过次数较多、文本向量相对集中的区域,缩短了蚂蚁寻找文本向量簇的时间,加快了算法的收敛速度,提高了聚类结果的准确性。  最后,利用VC++开发工具实现一个基于信息素的蚁群文本聚类算法的实验平台,通过实验对文本聚类技术研究成果进行了验证,并对聚类结果性能进行了分析,为进一步的研究提供方向。
其他文献
Web服务组合是面向服务的体系结构(Service Oriented Architecture,SOA)研究领域的热点问题。针对SOA所采用的“以服务提供商为中心”的服务组织模式容易导致用户发现和订阅
基于对象存储体系结构是一种新的网络存储体系结构,具有高性能、高可扩展性、良好的安全性。基于对象存储设备(OSD)是基于对象存储系统中的基本存储设备,主要承担对象属性和数
JAVA平台如今成为引领市场的潮流,J2EE是它的三个版本之一,它是一个提供企业级应用的平台,越来越多的开发者采用该平台技术,用比已往更少的投入、更短的开发周期和更少的资源来设
生物信息学是利用现代计算技术来处理和研究生物数据的一门新型交叉学科。其中,序列比对是生物信息学最基本的一个研究方法。如何获得比对质量更好、时间空间效率更高的序列比
  本文阐述了对现有无线远程监控系统的研究情况;介绍了移动通信方式,并探讨了GRMP使用的各移动通信方式的优缺点。文章从物理链路层、数据传输层和应用层介绍了GRMP协议的设
  本论文提出了一种基于P2P的Web服务模型。该模型采用流行的JXTA作为支撑网络,每个节点既可充当服务提供者,又可作为服务请求者,服务提供者节点可向UDDI注册库网络发布其服务
该文在国家自然科学基金项目"基于多智能体协调的机器人系统控制"的资助下,以提高移动机器人路径规划的实时性、智能性和鲁棒性为目的,对移动机器人路径规划问题进行了深入系
本论文详细阐述了鞍钢铁路运输系统的需求分析、系统分析、数据库设计和系统设计开发过程中使用的方法,并引入了UML面向对象建模技术,从静态、动态两个角度完成了对系统的建
本论文在软件平台化、构件化、软件复用以及快速开发方面的进行探讨,提出了基于中间件技术构造面向银行的金融交易交换平台的思想,阐述了中间件的由来、机理、分类、特点和优势
模糊聚类分析是模糊模式识别范畴中的一个重要分支,是一种无监督的模式识别方法,在许多领域被广泛的应用。本文在对传统的模糊c-均值(FCM,Fuzzyc-means)聚类算法及其修改形式进