基于遗传算法的模型参数选取及其在文本分类中的应用

来源 :河北大学 | 被引量 : 0次 | 上传用户:ellydyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展,信息数据大量增加,甚至呈指数级态势迅猛增长。有效利用这些信息数据的难度也随之增加。同时,在这些信息数据中还存在大量的无用信息以及有害信息,为处理信息的过程带来了极大的负面影响。因此,如何高效地利用信息数据,已经成为了机器学习领域的研究热点。此外,文本作为一种常见的信息数据形式,如何有效地对文本数据加以分类,则是文本信息处理过程中的重要任务。为了提高文本分类的快速性和准确性,针对分类效率及分类准确率的问题,本文采用了一种将遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法。该方法将支持向量机的参数看作遗传算法的一个染色体,并进行二进制编码,将支持向量机的分类准确率用作遗传算法的适应度函数,对每一个个体适应度进行评价,并通过选择、交叉和变异的遗传操作,得到对文本分类数据最优的支持向量机参数,最后利用带有最优参数的支持向量机对属于既有类别的文本数据进行分类。一般情况下,对于新进的文本信息数据,我们可将其归入既有类别,然而既有类别往往无法满足大量新进的文本信息内容,即新进文本数据的类别往往会超出既有类别的范围。因此,如何有效地判断新进文本信息数据是否可以分类至既有类别,同时又可将不属于既有类别的文本信息数据进行分群处理,新增不属于既有类别的群聚类别,同样具有一定的实际意义。针对新进文本信息数据无法被分类至既有类别的问题,本文提出了一种渐进式分群方法。首先利用遗传算法选取合适的特征词组合来训练既有类别文本信息的支持向量机,并用测试文本信息将属于既有类别的文本信息数据进行分类;然后对于未分至既有类别的文本信息进行分群,利用遗传算法进行分群群数的最优化,并且选取模糊分群法(即FCM)的最佳分群中心点。最后,使用效果衡量指标Precision、Recall以及F-measure评估本研究的效率及分类准确率Macro-average和Micro-average。实验结果表明,使用GA-SVM方法可以有效地提升分类效果,而使用GA-FCM方法进行分群也可以取得较好的分类效果。
其他文献
目的:通过建立大鼠牙周骨缺损模型,采用甲状旁腺激素(parathyroid hormone,PTH)(1-34)联合引导骨组织再生来修复牙周骨缺损病变,探讨分析运用PTH(1-34)联合引导骨组织再生的
资产评估行业,是社会进步,经济发展的产物。现实中,还存在一些矛盾和问题,必须引起重视,切实加以解决。1、"无法立法,立法无法"目前,关于评估立法的呼声很高,关键是,立法应该
新农村的文化艺术建设是当前社会主义新农村建设的重要组成部分,也是推动社会主义新农村建设走向繁荣的基础。但在新农村文化艺术具体建设中也存在一些问题和不足,这些问题影
研究了一类模糊不确定网络切换控制系统的H∞鲁棒控制问题,将时延的不确定性转化为系数矩阵的不确定性,在此基础上利用并行分配补偿,并根据H∞鲁棒控制理论及线性矩阵不等式方法
糖尿病是严重影响人们健康和生命的常见病,其致残率、致死率仅次于心、脑血管及癌症,占第三位。糖尿病患者中,约70%出现全身小血管和微血管病变,糖尿病性视网膜病变(diabetes retin
船舶作为当今世界上重要的交通运输工具,在经济全球化的进程中起着举足轻重的作用。面对日益频繁的海上运输和越来越大的船舶吨位以及全球节能环保的时代要求,从船舶的安全性
在高中语文阅读教学中,教师要指导学生多元解读作品,促使学生提高阅读能力。本文通过举例设置悬念、筛选信息、立足文本、组织实践四种方式,介绍指导学生多元解读,以期得到抛
图像理解是对图像处理及其应用的一个重要方面,其主要涉及到对图像中目标的识别、检测等,通过对于图像中所含目标之间的关系进行分析,来理解图像中的内容。在实际应用中图像
整体叶轮在航空、能源、船舶等行业有广泛应用,其加工质量会直接影响透平机械的效率和性能。整体叶轮具有扭曲大,流道窄等特点,属于典型的难加工零件,尤其是对于钛合金整体叶
胃癌是全世界男性死亡的第三大原因,也是女性死亡的第五大原因。虽然根治性手术切除是目前最有效的治疗,但40-70%的患者一经诊断即为晚期。此外,手术后40-60%的患者出现复发