中文文本分类相关算法的研究与实现

被引量 : 0次 | 上传用户:qq479255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,特别是Internet应用的普及,电子文本信息急剧增加,如何有效地组织和管理这些海量信息,并且能够快速、准确地获得用户所需要的信息是当今信息科学技术领域的一大挑战。对电子文本进行有效管理的方法之一就是文本分类。文本分类是一项重要的智能信息处理技术,在信息过滤、信息检索、文本数据库和数字图书馆等方面极具应用价值。文章从自然语言处理、文本挖掘、机器学习、模式识别等领域讨论文本分类的应用。介绍了中文文本分类技术及相关算法。设计并实现了一个中文文本分类系统,主要目的是发现中文文本分类相关算法的问题及规律,该系统包括训练和分类两大模块。训练模块有:(1)中文文本预处理,实现了一个正向最大匹配分词算法,并根据实验生成了适合分类的停用词表;(2)特征选择,实现了信息增益(IG)、互信息(MI)、交叉熵(CE)、x~2统计和文档频率(DF)五种特征选择算法;(3)权重计算,实现了TF、TF*IDF、TF*特征评估函数值、TF*IDF*特征评估函数值等多种权重算法;(4)分类器构造,实现了类中心向量、贝叶斯和K近邻三种基于统计方法的文本分类算法。分类模块是对未标注类别的文本使用分类模型进行分类,然后对分类结果进行评价,并将评价结果反馈给训练模块,从而不断改进训练过程。通过实验分别对以上算法进行了评测和比较,得到了相关参数的经验值和算法之间的较佳组合等,实验数据可用于信息检索、信息过滤、数字图书馆和网页分类等。
其他文献
目的探讨CYBA基因的多态性位点与急性动脉硬化性脑梗死的相关性。方法收集284例脑梗死患者(脑梗死组)及335例同期健康体检者(对照组),采用聚合酶链反应-限制性片段长度多态性
政策层面,国家“十一五”计划中明确提出把积极推进阅读社会当成文化发展的主要任务之一,随后“全民阅读”成为焦点。阅读趋势层面,新兴的数字阅读十分流行。社会层面,中国正
<正>2015年12月,中央出台了《中共中央国务院关于打赢脱贫攻坚战的决定》,对农村金融支持精准扶贫提出了要求。2016年,国务院发布第一个国家普惠金融发展规划,将贫困人员作为
目的肩峰下滑囊炎患者治疗中采用综合治疗,探讨其临床应用疗效。方法随机选取2010年2月—2015年10月该院治疗的63例肩峰下滑囊炎患者作为对象,所选患者均给予电针、药物、电
[目的/意义]以个体媒介与信息素养为基础探究企业知识创新支撑路径,为推动企业知识创新提供新的视角和具体方式。[方法/过程]首先对大数据时代的数据、信息和知识内涵进行辨
目的:通过分析北京市方庄地区儿童全血微量营养素的含量及影响因素,研究探讨微量营养素缺乏的防治措施。方法:2011年1月至12月北京中医药大学东方医院儿科门诊1887例健康体检
江西地处长江中下游,位于我国东南部,全省水网交错,水系发达,气候湿润、雨量充足,自古被称为"吴楚喉咙、右江之冲要"。江西民间舞蹈经过长期的发展和变化,以及属性上的交叉,
词素语义的激活时间进程一直是研究者争论的焦点问题。关于“先形后义”和“形义并行”的观点分别被不同的研究所支持。本研究采用启动范式,利用词素语义透明度效应,将词形和
在现代产品设计美学形成的过程中现代派美术起了很重要的作用,这是已经被设计界和美术界所认知的。现代派美术出发点是对现实世界的否定,是精英美术。但是,它的影响下,却产生