基于支持向量机的中文文本分类研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:thedogstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,信息海量增长,如何从大量数据中获取有用信息是人们急需解决的问题。信息多数是以文本的形式出现,而中文是世界上使用人数最多的语言,所以研究中文文本分类具有重要意义。文本分类可以高效的组织和管理信息,实现快速、准确的定位信息,有效的缓解了信息混乱无序的现象。文本分类的问题是维数高、稀疏性大和特征关联度高,而支持向量机在解决这些问题上具有很大的优势,因此,支持向量机广泛应用于文本分类中。但是,支持向量机也有一些缺点,例如,样本数量增多导致分类速度变慢,参数对算法的学习性能和泛化能力影响较大。目前传统的支持向量机参数的寻优方法存在一些缺陷,比如搜索能力较弱和准确率不高等问题。本文针对以上问题,在优化支持向量机参数方面进行了详细的研究,以达到提高文本分类的准确率和减少分类时间的效果。本文的主要研究内容如下:首先,论文系统的概述了文本分类的研究背景及意义,海内外研究和未来的发展前景,介绍了文本分类的相关理论和关键技术,对比了文本分类中常用的算法。通过实验证明,SVM是分类效果相对较好的算法。然后,针对支持向量机参数选取困难的现象,本文引入了萤火虫算法,并对其进行改进,将改进后的算法来优化支持向量机参数。通过实验进行对比,验证了改进后的萤火虫算法在早期全局搜索能力增强,在后期收敛速度加快,提高了算法的性能。其次,将改进后的萤火虫算法应用于SVM参数优化中,并将优化后的参数应用于训练SVM模型中。最后,通过实验对比标准支持向量机和改进后萤火虫算法优化的支持向量机在文本分类中的效果。实验结果显示,改进的支持向量机模型应用在文本分类时,分类速度加快,分类的精准率明显提高,增强了支持向量机的分类性能,验证了改进算法的有效性。
其他文献
拒绝服务DoS(Denial of Service)攻击对互联网中的相关服务产生极大影响,而慢速拒绝服务LDoS(Low rate DoS)攻击作为一种新的DoS攻击,其攻击效率更高、隐蔽性更强,使得传统DoS攻击的
磁盘阵列技术通过数据分条技术来提高存储系统的吞吐率,通过数据冗余技术来提高存储系统的可靠性。当一个磁盘阵列建立好之后,随着用户的使用,可用的空间将会越来越小,这个时候需
不断膨胀的移动互联网业务规模为电信核心网的可扩展性带来挑战。作为3GPP提出的下一代核心网,IMS(IP Multimedia Subsystem)沿用了集中式的组网方式,可扩展性存在严重问题。利用
三维动画是三维图形表现技术中的代表性技术,作为模拟真实和虚幻视觉世界的高级技术,在创作空间和表现力上具有其他同类技术不可比拟的优势,在户界面设计上应用三维动画可以在操
随着SOA(Service Oriented Architecture)及云计算等新兴计算模式的快速发展,作为SOA具体实现的Web服务(Web Services)也得到了迅速发展。如何根据用户对服务质量和安全及成本等
根据CAP理论,分布式文件系统在可用性、一致性和分区容忍性三个方面不可能同时满足。在分布式环境中,硬件故障、软件故障、网络分离及电源故障都可能导致分布式文件系统中节点
传统模式下的云应用的开发、发布、部署和维护有着诸多的不足,它们往往给应用开发者、云平台开发者以及云平台终端用户带来繁重工作量。让云平台以虚拟设备的方式封装云应用并
信息检索是当今计算机领域研究的热点之一,其目的是为了满足用户对信息需求,即从海量信息中查找到所需信息。但是由于用户查询与文档表示的不确定性,往往会影响文档与查询的匹配
随着电子产业和通信技术的飞速发展,移动终端以其强大的处理性能已经从简单的通话工具变为一个综合信息处理平台。丰富移动终端功能并且及时地更新其软件版本,才能更好地适应移
基于视觉的手势识别技术是自然人机交互方式中一个非常重要的研究方向,在虚拟(增强)现实、机器人控制、智能家电、游戏控制以及人机手语翻译等领域有着广阔的应用前景。但是由于