中文文本分类算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:aaron722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
几十年信息技术和网络的发展,极大地方便了人们的交流和沟通,人类文明的发展得到了很大推动,但是技术的发展也带来了信息海量式膨胀和有害信息等各种问题,如何在海量数据环境下有效地管理并快速地将所需的数据进行分类,成为信息科学领域迫切需要解决的问题。随着技术的发展,文本分类作为一门有着很大实用价值的独立学科成长了起来,并在信息检索、搜索引擎、舆情分析等领域得到了广泛应用。由于文本用向量空间模型表示存在维度高、稀疏性大的特点,对于文本的分类有一定的难度。信息增益是目前最为常用的文本特征选择方法,但是对于非平衡集的分类效果不佳。支持向量机是最适合文本分类的方法,但是支持向量机目前仍然存在复杂度较高、花费时间较长、对参数敏感性较强等问题,在实际应用中仍在存在着一些难题。本文针对上述问题做了如下工作:总结分析了文本分类的研究背景和相关技术;研究了特征选择方法和支持向量机的基础理论并总结了它们目前依然存在的问题;针对信息增益没有考虑特征项分布信息而导致的在非平衡集上效果不佳的问题,结合Theil熵定义了类间离散度和类内离散度,提出了一种基于Theil熵的信息增益特征选择方法T-IG;针对支持向量机对参数的敏感性,结合GLOA优化算法提出了一种新的分类算法GLOA-SVM,并实验证明了算法在分类上的有效性;基于T-IG方法和GLOA-SVM算法设计并实现了一个中文文本分类原型系统,实验验证了T-IG方法和GLOA-SVM算法在中文文本分类领域的效果。
其他文献
目的:观察和比较恩替卡韦联合胸腺肽a1治疗HBeAg阳性慢性乙型肝炎的疗效。方法:选取我院87例HBeAg阳性慢性乙型肝炎患者分成联合组和对照组。联合组42例,初始同时使用恩替卡韦
教育是一项非常复杂而又极具艺术性的系统工程,在这个系统工程中,家庭教育占据着特殊位置,它是学校教育、社会教育的基础所在,给予个体的影响具有基础性、根本性、长远性。随
可编程逻辑核,实质上是规模较小的FPGA(现场可编程门阵列),将其作为IP嵌入到集成电路中,可以缩短集成电路设计周期,降低投片风险,延长产品生命周期。本课题来源于作者作为主
《京华烟云》,被誉为中国的“当代红楼梦”,是中西文坛巨擘林语堂先生最著名的英文小说之一。这部小说通过北京三大家族—姚家、曾家和牛家的故事讲述,描述了从义和团运动到
众所周知,思想政治教育工作对于学校来说起着非常重要的作用,尤其是近些年高校发展迅猛,我们长久以来的以灌输教育为主导的思想政治教育模式,取得了显著成效。但是,近年来,这
已有关于技术教育的研究,多从教育系统内讨论技术教育问题,而且在讨论技术教育问题时所使用的概念往往并不一致。那么,究竟什么是技术教育?技术教育的历史演进有什么特点?当
辽宁省是我国21世纪开发建设的重点区域,也是振兴东北老工业基地战略实施的主要地区。十一五规划后,“五点一线”战略的实施,更使得辽宁省沿海经济跃上了一个更快、更强、更
虽然自从上世纪80年代起,法学界就开始对藏族赔偿“命价”现象予以热切关注,但是,时至今日,“赔命价”民间规则在刑事司法实践中,是否仍然具有生命力?如果有,它又是以怎样的
<正>笔者一直很钦佩东北人,能说会道。即兴发言对他们来说似乎根本不是问题,随便扯张白纸,他们就能跟你聊很久。包括笔者在内的大多数人没有这种天赋,即使从开会伊始就开始构
期刊
电镀工业对基体金属表面进行电镀前必须进行表面除油处理,除油工序中使用的除油剂泡沫太多会影响生产过程的进行,使用含磷的助洗剂容易造成环境污染。此外,目前电镀工业的除