基于萤火虫算法和改进K近邻的文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:easy515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的飞速发展,如今的网络用户不仅仅是信息的消费者,更是信息的生产者。网络上充斥着大量以文本形式存在且杂乱无章的信息,面对海量数据,用户很难从中发掘出对自己有价值的信息。文本分类是解决这一问题的关键技术,能够高效地组织和管理网络上的文本数据。但目前的文本分类技术存在特征子集精度低而维度高、分类效率低等问题,为有效解决上述问题,本文主要从以下两方面进行改进研究:1.针对传统特征选择方法得到的特征子集精度不高的问题,提出一种基于信息增益和萤火虫算法的文本特征选择模型。首先采用信息增益选取所有特征词中信息增益值较大的词组成特征预选集合,然后利用萤火虫算法的较强寻优能力在该集合上搜索更优的特征子集。为改善萤火虫算法收敛速度慢和易陷入局部最优的问题,引入动态更新的步长因子。在算法搜索初期,步长相对较大,能够进行良好的全局搜索;在后期,步长随着迭代次数的增加而逐渐减小,能保证算法局部搜索性能较好并快速到达最优解。实验结果表明,改进后的萤火虫算法结合信息增益选择的特征子集精度比原始萤火虫算法和信息增益更高,该特征选择模型可以有效提升文本分类的准确率。2.针对K近邻算法在面临训练样本数量较多时分类效率低的问题,提出一种基于聚类和中心向量的快速K近邻分类算法。首先采用聚类方法对每个类别的训练文本聚成簇,然后将各类别的文本划分为类内区域和类边界区域并计算中心向量,根据类内区域的所有文本向量和中心向量得到类内平均距离。在对待测文本分类时,根据它离中心向量的距离和类内平均距离判断能否快速做出决策,若不能则计算待测文本离各簇心的距离,由距离较近的簇中所有文本组成训练样本子集,最后在该子集上利用K近邻算法做分类决策。实验结果表明,改进后算法的各项分类性能指标与传统K近邻算法相近,但分类耗时显著减少,可有效提升文本分类效率。
其他文献
分类问题在人们的日常生活、社会活动、科研生产以及学习、工作中是很常见的。在很多领域中,比如医学的临床诊断、工业生产的机器状态判断、语音的智能识别等等方面,分类问题
现场可编程门阵列FPGA具有运算速度快,灵活性强,功耗低等优势,已被广泛应用于通讯、图像、信息处理等领域。以FPGA内部门阵列搭建环形振荡器作为温度传感器也被普遍用于FPGA热特性问题的研究。半导体工艺技术的发展提高了芯片集成度,芯片运行频率的升高也增加了芯片功耗,二者共同作用使得芯片运行时的温度急剧增加,大大降低了芯片的可靠性。所以基于FPGA平台监测芯片运行温度,掌握芯片的温度分布具有重要意义
随着信息产业的高速发展,大量的信息需要被保存管理,这对信息存储技术提出了更高的要求。新一代磁存储器件凭借其存储密度高、存取速度快、功耗低并且微小型化等优势在众多存
目的:目前研究LPRD的病因多局限于咽喉以外的病因研究,如认为检测唾液中的胃蛋白酶可以诊断LPRD,但不是所有的LPRD唾液胃蛋白酶检测阳性,可能存在咽喉本身的原因造成一些LPRD
互联网在近几十年来迅速发展,已经成为经济和社会基础设施至关重要的一部分。随着越来越多的应用被部署到互联网络中,传统的互联网架构逐渐表现出一些难以克服的问题,如网络
语音交互方式是一种很有潜力的人机对话媒介,在生活以及商业领域有着丰富的应用场景。本文主要的研究策略是将系统限制于特定的数个语境之中,引入语音交互过程,从而在受限语
“工欲善其事,必先利其器。”在数控技术中,刀具作为一种基本的加工设备,在切削加工中起着关键的作用。随着现代工业的不断发展,复合材料、新型高强度钢等高性能材料广泛应用
移动无线通信技术发展到今天,频谱资源匮乏问题日趋严峻,为了满足人们日益快速增长的移动无线业务需求,国内外学者一方面着力开展提升频谱效率的新一代移动通信技术研究,同时
从古至今,我国对受贿一直保持着足够的重视,涉及受贿的法律条文以及解释、意见更是不胜枚举。虽有众多法律条文的约束,但在现实中,受贿的情形还是经常发生。而且随着社会的逐
目的:研究在有先兆偏头痛发作期及发作间期和健康人群血浆降钙素基因相关肽及内皮素含量,探讨存在与不存在右向左分流的偏头痛患者间的区别与联系,通过临床分析探索偏头痛的发病机制。方法:选取85例于2017年11月至2018年12月在佳木斯大学附属第一医院神经四科门诊确诊为“有先兆偏头痛”的患者,其中男性患者28例,女性患者57例,年龄18-55岁(34.64±9.21岁),入组均符合有先兆偏头痛诊断符合