基于随机森林的藏文文本分类

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：wuhen_lu83

【摘要】

：

【作者】

：

包晗西热旦增郭龙银尚慧杰

【出处】

：

电脑知识与技术

【发表日期】

：

2019年34期

【关键词】

：

藏文条件随机场 TF-IDF 随机森林文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：针对藏文文本及其语法和词法结构，采用条件随机场进行分词，利用人工统计和标注进行停用词词典建立，然后采用tf-idf的词向量空间，予以权重计算，最后采用随机森林算法構建分类器，进行文本分类。并使用查全率、查准率和F1值三种评价函数与逻辑回归、多项式朴素贝叶斯、支持向量机三种算法相比，结果显示，随机森林算法在高维特征的藏文文本分类上优于其他分类器。
　　关键词：藏文;条件随机场;TF-IDF;随机森林;文本分类
　　中图分类号：TP391
　　文献标识码：A
　　文章编号：1009-3044（2019）34-0178-03
　　随着藏语言在互联网的传播，藏语语言信息数据及资源呈现海量特征，而研究藏文文本分类可有效管理和利用这些海量信息。其中，文本分类（textcategorization，简称TC）技术是信息检索和文本挖掘的重要基础，其中主要任务时在预先给定的类别标记（label）集合下，根据文本内容判定它的类别1。藏文文本分类目前还处于统计学习和深度学习的过渡阶段，尤其是在藏文文本数据语料不庞大和标注程度深度不够的前提下，随机森林（Random Forest）算法能够处理高维特征的输入样本，且不需要降维处理。
　　1 藏文文本分词
　　藏文自动分词可以看作是计算机自动辨识藏文文本字符流中的词，并在词与词之间加入明显的词切分标记符的过程2目前，已有多种分类方法，例如：最大匹配算法3、基于格助词和接续特征的书面藏语自动分词-等，在比较多种分词方法后，确定以洛桑嘎登的基于知识融合的条件随机场s进行藏文分词。
　　x为音节，ξ为阈值，第一种为黏着词、歧义词等音节组合规则库建立，第二种为人名、地名、非藏文字符等固定音节规则库。最后统计和人工筛选出最终的库的元素，将阈值极高的元素在分词之间先行筛除，其余元素在分词中将阈值与条件随机场输出比较。
　　2 tf-idf特征提取
　　2.1 文本向量空间模型
　　向量空间模型（VSM）6由哈佛大学的G Salton提出，是基于统计的代数模型。文本向量空间模型（TVSM）则是拟定一个向量空间概念，将文本中的每一个词转换为空间的不同维度，文本的表达与向量之和相似，形成一个在高维度上的带方向的点，而一个词的权重即是该点在对应维度上的绝对值。一个文本的表达式为：
　　在文本向量空间模型中，单个文本的维度一般在百维至千维以上，高纬度的文本所包含的内容更为丰富，词与词之间的联系也更为紧密，允许文本分类的种类更为多且层次更深。
　　2.2 tf-idf特征提取
　　Trf-idf（Term-frequency times inverse document-frequenry）词频乘以逆文本频率，公式：
　　tf（t，d）为词频函数，表示某个藏文词在一个文本中出现的次数，他和文本越相关，则在文本中出现的次数越多。但在大型语料库中，一些许多特定的词出现的频率极高，例如藏语中的连接词等，他们不具有分类特征，会影响分类器的判断，我们应当在构建词频矩阵前排除。
　　idf（t）为逆文本频率函数，表示某个藏文词在某文本类别的影响频率，即该词在某个类别出现的频率越高而在其他类别出现的频率越低，则该词对某类别的分类影响程度越高，公式6：
　　其中n是语料集中所有文本数，d （t）是语料集中拥有t维度的所有文本数。
　　Ridge回归，使用Frobenius范数，将单文本中所有的tf-idf值进行回归，最终将所有文本转换为多维浮点数矩阵，公式为：
　　3 随机森林分类器
　　3.1 决策树
　　决策树是将文本中的词作为节点，计算该词加上所有父节点构成的词序列对某一类别的分类误差率，设立阈值，根据阈值判别产生不同的子节点，循环此过程，直到阈值为0或无子序列。决策树主要分三个步骤：特征选择、决策树生成、剪枝。
　　特征选择，本文采用CART算法来进行特征选择，CART（Classification And Regression Tree）。是Breiman等人在1984年提出的，是一种二分决策树，它判别规则是要么为某一类，要么就是其他类，它使用基尼系数（Gini）来对二叉树的节点进行选择。Gini系数的公式：
　　决策树生成，即决策过程，根节点为特定的词序列，即只有一个词，该词在所有词中分类误差率最好，对某一个类别概率最大。随后的子节点依据上一个判定划分成左右两个子树，若基尼系数不为零或者词序列无子序列则停止决策，若不为零且不唯一，则在可能的类别里继续决策。具体决策树如图1所示（该决策树仅演示所用，取少量数据构建的部分子树）。
　　剪枝，裁剪决策树的一些子树并将该子树作为叶节点。决策树有时会根据所有训练样本的形成一个非常庞大的决策树，在训练样本上准确率很高而对于测试样本准确率往往不理想，形成过拟合现象。过拟合现象的解决方式需要人工的观察和调试，观察和控制每一层决策树大小，设置最小叶节点的样本个数，调整叶节点的最小权重等等。
　　3.2 随机森林
　　随机森林（ RandomForest），是在bagging算法8基础上更进一步。
　　bagging算法是从所有文本中重采样出n个文本构建分类器，然后重复m次此过程获得m个分类器最后根据这m个分类器的投票结果决定文本属于哪一类。随机森林不需要交叉验证，步骤如下：
　　其中I（.）是示性函数，avk表示取平均值，边际函数表示了在正确分类Y之下X的得票数目超过其他错误分类的最大得票数目的程度。边际函数可有效地展示随机森林的决策树组合效果，此外还可以根据边际函数进行决策树的n文本个数的调整，决策树中词数的调整以及分类的组合方式。　　4 实验结果
　　本文的数据集的文本总数为12090篇，共分为10个类。分别為：艺术、文化、教育、历史、哲学、科技、体育、政治、经济、自然。文本分布如图2：
　　本文为了快速比较四种算法的效果，采用scikit_learn7的skleam. naive_bayes. MultinomiaINB， sklearn. linear_model. Logisti-cRegression，sklearn.svm作为多项式贝叶斯算法、逻辑回归算法、支持向量机算法的分类器。根据精度值（precisionscore），召回值（recallscore），fl值（fl score）对比效果，如图3所示。
　　结果显示随机森林分类器的效果要优于其他分类器。
　　5 结束语
　　本文从分词到最终的文本预测，完成了基于随机森林的藏文文本分类的全部任务。实验结果显示文本分类效果良好，且相比于多项式贝叶斯、逻辑回归、支持向量机效果更为优秀。但进步空间仍然很大，1）应该扩充语料库为大型语料库进而再做测试，在大型语料库上单一的统计算法分类器不能很好地满足分类需求，要构建多种算法加权预测。2）分类效果上还有上升空间，且目前深度学习研究前景更好，我们应该将统计算法与神经网络相互融合，从而提高分类效果。
　　参考文献：
　　[1]苏金树，张博锋，徐昕.基于机器学习的文本分类技术研究进展[J].软件学报，2006（9）：1848-1859.
　　[2]茂松，邹嘉彦.汉语自动分词研究评述[J]当代语言学，2001，3（1）：22-23.
　　[3]罗秉芬，江荻.藏文计算机自动分词的基本规则[C]//中国少数民族语言文字现代化文集.北京：民族出版社，1999.
　　[4]陈玉忠，李保利，俞士汶，等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用，2003（1）：75-82.
　　[5]洛桑嘎登，杨媛媛，赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报，2015，29（6）：213-219。
　　[6] Salton G，Wang A，Yang C S.A vector space model for automat-ic indexing[J]. Communication of the ACM， 1975， 18（11）：613-620.
　　[7] https：//scikit-leam.org/stable.
　　[8] Breiman J. Bagging predictors[J]. Machine Learning， 1996， 24（2）：123 -140.
　　【通联编辑：唐一东】
　　收稿日期：2019-08-15
　　基金项目：2018年大学生创新创业训练计划项目“基于随机森林的藏文文本分类”（项目编号：2018XCX045）
　　作者简介：包晗（1998-），男，浙江丽水人，本科;通信作者：西热旦增（1989-），男，西藏那曲人;郭龙银（1997-），男，江西九江人，本科，主要研究方向为自然语言处理;尚慧杰（1996-），女，河南周口人，本科。

其他文献

推进农村电商平台优化发展研究——以湖北省咸宁市为例

当前我国农村电子商务发展较快,在发展过程中存在着项目一哄而上缺乏甄别、选品雷同性大缺乏特色、农民网络知识欠缺、网店缺乏持续发展等问题。另外,道路、网络、物流、金融

期刊

农村电商电商平台咸宁市

基于六盘水师范学院的大学生兼职状况调查研究

摘要：以六盘水师范学院的大学生为研究目标，通过对该校大学生寻找兼职的途径、从事的兼职和自己学业的关系以及通过兼职获得的收获等进行调研，分析大学生的兼职状况，并在最后提供了合理的建议。　　关键词：六盘水师范学院;大学生;兼职;调研　　中图分类号：TP319 文献标识码：A　　文章编号：1009-3044（2019）34-0262-01　　随着社会的发展和学生需求的增加，大学生兼职情况屡见不鲜。关于大

期刊

六盘水师范学院大学生兼职调研

智慧社区养老关键技术研究

摘要：中国人口老龄化形势越来越严峻，用于老年人的社会保障支出将持续增长，养老问题的严重性和必要性浮出水面。采用先进的技术手段服务于养老事业的项目目前还处于起步阶段，本文分析了智慧养老国内外的现状，并阐述了智慧社区养老系统关键技术，进一步阐述了物联网技术、可穿戴设备、大数据技术等在智慧社区养老系统构建中主要意义和实现方式。　　关键词：智慧社区养老;物联网;大数据;云计算;虚拟现实　　中图分类号：TP

期刊

智慧社区养老物联网大数据云计算虚拟现实smart community pensionInternet of thingsBig dataclou

基于Android的超市智能导购系统的设计

摘要：论文从APP的需求分析入手，重点阐述了基于Android的智能导购系统“优购”的使用对象、功能、市场前景等方面。该软件重要适用人群分别为消费者与超市管理者，对于消费者而言，使用该款APP不仅可以帮他们轻松地找到所需商品，而且可以为他们提供同类商品间的差异等功能，帮他们做出有效建议;而对于超市管理者而言，他们不仅可以实时查看商品销售情况，而且可以发布各种电子优惠券从而促进消费者购买欲的等功能。

期刊

ANDROID导购Bmob后端云

“互联网思政教育”：新时期研究生管理的新思路

摘要：近年来，研究生的数量与日俱增，在带来优质人才储备量提升的同时，也使得研究生的管理工作面临严峻挑战。新时期，如何做好研究生的管理工作，则需要把握“互联网 ”带来的便捷优势，探索思政教育新模式。本研究以此为核心，从当前研究生思政教育工作的弊端着手，明确互联网思政教育对研究生管理的有效性，并提出管理策略，为研究生管理工作的有效性探索新方案。　　关键词：“互联网 ”;新时期;研究生管理;思政教育;

期刊

“互联网+”新时期研究生管理思政教育新思路

电子工程技术发展趋势研究

摘要：随着信息技术及智能化技术的大力发展，电子工程技术在近些年来获得了飞速的进步，并且在各个行业各个领域中的应用非常广泛，也受到了更多专业领域技术人员的关注。该文以电子工程技术为研究对象，通过对电子工程技术定义、特征等内容的简单概述，指出电子工程技术未来的发展趋势，并提出促进电子工程技术发展的策略，从理论上为该行业的进步提供一定的依据，促进其更好更快地发展。　　关键词：电子工程技术;发展趋势;电子

期刊

电子工程技术发展趋势电子工程行业发展策略

基于RS和GIS的保定市生态环境评价

为了减轻或消除环境问题带来的生态风险后果,避免环境恶化,合理利用有效资源,进而促进城市的可持续发展,就需要对城市的生态环境进行评价来获取基础信息,鉴于此,本文利用保定市现有的2016年遥感数据和统计资料,结合研究区的实际情况和数据状况,选取了VCI、BAI、WDI、LDI4个指标构建出EI来对保定市的生态环境进行评价,研究结果表明:整个保定市的EI值为41.46,整体的生态环境状况"一般",植被覆

期刊

保定市生态环境状况指数(EI)生态环境评价

大学生消费现状调查——以六盘水师范学院为例

为了调查大学生的消费现状,以六盘水师范学院的大学生为例,采用问卷调查等方式收集相关数据,并对数据进行整理和统计,分析出六盘水师范学院大学生消费状况,为学生合理消费提

期刊

大学生消费问卷调查参考意见

基于monkeyrunner的Android应用自动化测试框架的研究

摘要：针对Android手机应用软件测试，提出了基于monkeyrunner框架的自动化测试解决方案。对于Android手机常用的测试场景给出了具体的实现方法，测试结果表明，通过基于monkeyrunner的Python脚本实现测试用例自动化，减少了重复和烦琐的手工测试，提高了Android手机应用测试的效率，节约了人力成本，缩短了软件开发周期。　　关键词：Android;自动化测试框架;mone

期刊

ANDROID自动化测试框架monekyrunnerPYTHONAndroidAutoamtion test frameworkmonkeyrunn

身份认证系统在电子政务中的应用与研究

摘要：电子政务在政府提高行政效率、推动职能转变方面发挥了重要作用，其应用系统的网络安全问题也越来越重要。该文阐述了江苏省发改委通过身份认证系统的建设，提升了其电子政务平台网络和系统的安全性。　　关键词：身份认证;数字证书;PKl技术;电子政务　　中图分类号：TP311 文献标识码：A　　文章编号：1009-3044（2019）34-0263-01　　近年来随着我国电子政务的飞速发展，信息系统的安全

期刊

身份认证数字证书PKI技术电子政务

基于随机森林的藏文文本分类

与本文相关的学术论文