基于三支决策的中文文本分类算法研究

来源 :南京大学学报(自然科学) | 被引量 : 0次 | 上传用户:ICE867200WXM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的不断发展,越来越多的信息不断涌现出来,如何在海量的信息中快速有效地获取到最有价值的信息成为人们不断关注的热点.中文文本分类作为自然语言处理的一个分支,通过将信息归纳成已知的主题类别,可以有效地帮助用户快速获取海量信息中所需的信息.但由于传统特征选择算法存在着很大的局限性,目前在中文文本分类领域上还存在着很大的不足,集中体现在提取出的特征过于高维和稀疏,不能高效地表示类别的文本.基于此,结合三支决策的思想,提出一种新颖的特征选择算法,将无监督与有监督的特征提取算法相结合,有效减少特征词的数量,使
其他文献
中日韩三个国家因为地理、历史原因具有很强的发展趋同性,具有共同的人口经济发展阶段特征,引领着东亚经济快速发展。在人口经济制度方面正在进行或即将进行第四个发展阶段。
二支聚类要求聚类结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而在许多实际问题中,一个对象和类别可能会有三种关系:即确定属于、确定不属于和无
本文以大量语言濒危现象为例证 ,对引起语言濒危的原因进行分析 ,认为产生语言濒危乃至消失的原因有两类 ,其中由于主动的语言转用造成的本族语消失是产生当代语言濒危现象的
目的探讨血清CA125在肺癌的诊断分型及分期中的应用。方法用化学发光免疫分析法检测113例肺癌患者血清CA125水平,分析肺癌不同类型及不同分期患者血CA125水平差异,并与健康者
中韩两国在出生人口性别比的变化特点、出生人口性别比偏高产生的原因等方面有着极为相似之处,总结韩国应对出生人口性别比偏高的措施和做法,特别是通过促进妇女政策环境的形
以词类活用和变异搭配为例,对艺术语言的语法偏离性在随意谈话体、专题谈话体、通报体、法规体、条据体、函电体、论著体、报告体、辞书体、科普体、科技新闻体、报道体、时评
每一个民族或文化都有一个核心主题。对于加拿大而言,这个核心象征意念就是生存。门罗小说《逃离》通过对小镇女性的生活经历和心理活动的刻画,映射出有关生存主题的诸多因素
在粗糙集领域,属性约简的首要任务是在保持原有数据相关特性的前提下,获取一个最小的属性子集。代价敏感学习的目标旨在最小化各类代价。而近似属性约简的意义在于让决策者能
市场经济条件下 ,资金不仅是重要的生产要素 ,还是其他要素的吸引器 ,可以说 ,它是落后地区经济启动  的原动力。在西部大开发中 ,青海省融资渠道的拓宽 ,是直接关系到能否
<正>一、中国天主教爱国会的发起新中国成立之初,中国天主教管理教会的权利掌握在外国传教士手中。为了纯洁教会,广扬福音,中国天主教爱国的广大神长教友,自下而上地发起了中