基于随机森林的藏文文本分类

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:wuhen_lu83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对藏文文本及其语法和词法结构,采用条件随机场进行分词,利用人工统计和标注进行停用词词典建立,然后采用tf-idf的词向量空间,予以权重计算,最后采用随机森林算法構建分类器,进行文本分类。并使用查全率、查准率和F1值三种评价函数与逻辑回归、多项式朴素贝叶斯、支持向量机三种算法相比,结果显示,随机森林算法在高维特征的藏文文本分类上优于其他分类器。
  关键词:藏文;条件随机场;TF-IDF;随机森林;文本分类
  中图分类号:TP391
  文献标识码:A
  文章编号:1009-3044(2019)34-0178-03
  随着藏语言在互联网的传播,藏语语言信息数据及资源呈现海量特征,而研究藏文文本分类可有效管理和利用这些海量信息。其中,文本分类(textcategorization,简称TC)技术是信息检索和文本挖掘的重要基础,其中主要任务时在预先给定的类别标记(label)集合下,根据文本内容判定它的类别1。藏文文本分类目前还处于统计学习和深度学习的过渡阶段,尤其是在藏文文本数据语料不庞大和标注程度深度不够的前提下,随机森林(Random Forest)算法能够处理高维特征的输入样本,且不需要降维处理。
  1 藏文文本分词
  藏文自动分词可以看作是计算机自动辨识藏文文本字符流中的词,并在词与词之间加入明显的词切分标记符的过程2目前,已有多种分类方法,例如:最大匹配算法3、基于格助词和接续特征的书面藏语自动分词-等,在比较多种分词方法后,确定以洛桑嘎登的基于知识融合的条件随机场s进行藏文分词。
  x为音节,ξ为阈值,第一种为黏着词、歧义词等音节组合规则库建立,第二种为人名、地名、非藏文字符等固定音节规则库。最后统计和人工筛选出最终的库的元素,将阈值极高的元素在分词之间先行筛除,其余元素在分词中将阈值与条件随机场输出比较。
  2 tf-idf特征提取
  2.1 文本向量空间模型
  向量空间模型(VSM)6由哈佛大学的G Salton提出,是基于统计的代数模型。文本向量空间模型(TVSM)则是拟定一个向量空间概念,将文本中的每一个词转换为空间的不同维度,文本的表达与向量之和相似,形成一个在高维度上的带方向的点,而一个词的权重即是该点在对应维度上的绝对值。一个文本的表达式为:
  在文本向量空间模型中,单个文本的维度一般在百维至千维以上,高纬度的文本所包含的内容更为丰富,词与词之间的联系也更为紧密,允许文本分类的种类更为多且层次更深。
  2.2 tf-idf特征提取
  Trf-idf(Term-frequency times inverse document-frequenry)词频乘以逆文本频率,公式:
  tf(t,d)为词频函数,表示某个藏文词在一个文本中出现的次数,他和文本越相关,则在文本中出现的次数越多。但在大型语料库中,一些许多特定的词出现的频率极高,例如藏语中的连接词等,他们不具有分类特征,会影响分类器的判断,我们应当在构建词频矩阵前排除。
  idf(t)为逆文本频率函数,表示某个藏文词在某文本类别的影响频率,即该词在某个类别出现的频率越高而在其他类别出现的频率越低,则该词对某类别的分类影响程度越高,公式6:
  其中n是语料集中所有文本数,d (t)是语料集中拥有t维度的所有文本数。
  Ridge回归,使用Frobenius范数,将单文本中所有的tf-idf值进行回归,最终将所有文本转换为多维浮点数矩阵,公式为:
  3 随机森林分类器
  3.1 决策树
  决策树是将文本中的词作为节点,计算该词加上所有父节点构成的词序列对某一类别的分类误差率,设立阈值,根据阈值判别产生不同的子节点,循环此过程,直到阈值为0或无子序列。决策树主要分三个步骤:特征选择、决策树生成、剪枝。
  特征选择,本文采用CART算法来进行特征选择,CART(Classification And Regression Tree)。是Breiman等人在1984年提出的,是一种二分决策树,它判别规则是要么为某一类,要么就是其他类,它使用基尼系数(Gini)来对二叉树的节点进行选择。Gini系数的公式:
  决策树生成,即决策过程,根节点为特定的词序列,即只有一个词,该词在所有词中分类误差率最好,对某一个类别概率最大。随后的子节点依据上一个判定划分成左右两个子树,若基尼系数不为零或者词序列无子序列则停止决策,若不为零且不唯一,则在可能的类别里继续决策。具体决策树如图1所示(该决策树仅演示所用,取少量数据构建的部分子树)。
  剪枝,裁剪决策树的一些子树并将该子树作为叶节点。决策树有时会根据所有训练样本的形成一个非常庞大的决策树,在训练样本上准确率很高而对于测试样本准确率往往不理想,形成过拟合现象。过拟合现象的解决方式需要人工的观察和调试,观察和控制每一层决策树大小,设置最小叶节点的样本个数,调整叶节点的最小权重等等。
  3.2 随机森林
  随机森林( RandomForest),是在bagging算法8基础上更进一步。
  bagging算法是从所有文本中重采样出n个文本构建分类器,然后重复m次此过程获得m个分类器最后根据这m个分类器的投票结果决定文本属于哪一类。随机森林不需要交叉验证,步骤如下:
  其中I(.)是示性函数,avk表示取平均值,边际函数表示了在正确分类Y之下X的得票数目超过其他错误分类的最大得票数目的程度。边际函数可有效地展示随机森林的决策树组合效果,此外还可以根据边际函数进行决策树的n文本个数的调整,决策树中词数的调整以及分类的组合方式。   4 实验结果
  本文的数据集的文本总数为12090篇,共分为10个类。分别為:艺术、文化、教育、历史、哲学、科技、体育、政治、经济、自然。文本分布如图2:
  本文为了快速比较四种算法的效果,采用scikit_learn7的skleam. naive_bayes. MultinomiaINB, sklearn. linear_model. Logisti-cRegression,sklearn.svm作为多项式贝叶斯算法、逻辑回归算法、支持向量机算法的分类器。根据精度值(precisionscore),召回值(recallscore),fl值(fl score)对比效果,如图3所示。
  结果显示随机森林分类器的效果要优于其他分类器。
  5 结束语
  本文从分词到最终的文本预测,完成了基于随机森林的藏文文本分类的全部任务。实验结果显示文本分类效果良好,且相比于多项式贝叶斯、逻辑回归、支持向量机效果更为优秀。但进步空间仍然很大,1)应该扩充语料库为大型语料库进而再做测试,在大型语料库上单一的统计算法分类器不能很好地满足分类需求,要构建多种算法加权预测。2)分类效果上还有上升空间,且目前深度学习研究前景更好,我们应该将统计算法与神经网络相互融合,从而提高分类效果。
  参考文献:
  [1]苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006(9):1848-1859.
  [2]茂松,邹嘉彦.汉语自动分词研究评述[J]当代语言学,2001,3(1):22-23.
  [3]罗秉芬,江荻.藏文计算机自动分词的基本规则[C]//中国少数民族语言文字现代化文集.北京:民族出版社,1999.
  [4]陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82.
  [5]洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015,29(6):213-219。
  [6] Salton G,Wang A,Yang C S.A vector space model for automat-ic indexing[J]. Communication of the ACM, 1975, 18(11):613-620.
  [7] https://scikit-leam.org/stable.
  [8] Breiman J. Bagging predictors[J]. Machine Learning, 1996, 24(2):123 -140.
  【通联编辑:唐一东】
  收稿日期:2019-08-15
  基金项目:2018年大学生创新创业训练计划项目“基于随机森林的藏文文本分类”(项目编号:2018XCX045)
  作者简介:包晗(1998-),男,浙江丽水人,本科;通信作者:西热旦增(1989-),男,西藏那曲人;郭龙银(1997-),男,江西九江人,本科,主要研究方向为自然语言处理;尚慧杰(1996-),女,河南周口人,本科。
其他文献
当前我国农村电子商务发展较快,在发展过程中存在着项目一哄而上缺乏甄别、选品雷同性大缺乏特色、农民网络知识欠缺、网店缺乏持续发展等问题。另外,道路、网络、物流、金融
摘要:以六盘水师范学院的大学生为研究目标,通过对该校大学生寻找兼职的途径、从事的兼职和自己学业的关系以及通过兼职获得的收获等进行调研,分析大学生的兼职状况,并在最后提供了合理的建议。  关键词:六盘水师范学院;大学生;兼职;调研  中图分类号:TP319 文献标识码:A  文章编号:1009-3044(2019)34-0262-01  随着社会的发展和学生需求的增加,大学生兼职情况屡见不鲜。关于大
摘要:中国人口老龄化形势越来越严峻,用于老年人的社会保障支出将持续增长,养老问题的严重性和必要性浮出水面。采用先进的技术手段服务于养老事业的项目目前还处于起步阶段,本文分析了智慧养老国内外的现状,并阐述了智慧社区养老系统关键技术,进一步阐述了物联网技术、可穿戴设备、大数据技术等在智慧社区养老系统构建中主要意义和实现方式。  关键词:智慧社区养老;物联网;大数据;云计算;虚拟现实  中图分类号:TP
摘要:论文从APP的需求分析入手,重点阐述了基于Android的智能导购系统“优购”的使用对象、功能、市场前景等方面。该软件重要适用人群分别为消费者与超市管理者,对于消费者而言,使用该款APP不仅可以帮他们轻松地找到所需商品,而且可以为他们提供同类商品间的差异等功能,帮他们做出有效建议;而对于超市管理者而言,他们不仅可以实时查看商品销售情况,而且可以发布各种电子优惠券从而促进消费者购买欲的等功能。
摘要:近年来,研究生的数量与日俱增,在带来优质人才储备量提升的同时,也使得研究生的管理工作面临严峻挑战。新时期,如何做好研究生的管理工作,则需要把握“互联网 ”带来的便捷优势,探索思政教育新模式。本研究以此为核心,从当前研究生思政教育工作的弊端着手,明确互联网 思政教育对研究生管理的有效性,并提出管理策略,为研究生管理工作的有效性探索新方案。  关键词:“互联网 ”;新时期;研究生管理;思政教育;
摘要:随着信息技术及智能化技术的大力发展,电子工程技术在近些年来获得了飞速的进步,并且在各个行业各个领域中的应用非常广泛,也受到了更多专业领域技术人员的关注。该文以电子工程技术为研究对象,通过对电子工程技术定义、特征等内容的简单概述,指出电子工程技术未来的发展趋势,并提出促进电子工程技术发展的策略,从理论上为该行业的进步提供一定的依据,促进其更好更快地发展。  关键词:电子工程技术;发展趋势;电子
为了减轻或消除环境问题带来的生态风险后果,避免环境恶化,合理利用有效资源,进而促进城市的可持续发展,就需要对城市的生态环境进行评价来获取基础信息,鉴于此,本文利用保定市现有的2016年遥感数据和统计资料,结合研究区的实际情况和数据状况,选取了VCI、BAI、WDI、LDI4个指标构建出EI来对保定市的生态环境进行评价,研究结果表明:整个保定市的EI值为41.46,整体的生态环境状况"一般",植被覆
为了调查大学生的消费现状,以六盘水师范学院的大学生为例,采用问卷调查等方式收集相关数据,并对数据进行整理和统计,分析出六盘水师范学院大学生消费状况,为学生合理消费提
摘要:针对Android手机应用软件测试,提出了基于monkeyrunner框架的自动化测试解决方案。对于Android手机常用的测试场景给出了具体的实现方法,测试结果表明,通过基于monkeyrunner的Python脚本实现测试用例自动化,减少了重复和烦琐的手工测试,提高了Android手机应用测试的效率,节约了人力成本,缩短了软件开发周期。  关键词:Android;自动化测试框架;mone
摘要:电子政务在政府提高行政效率、推动职能转变方面发挥了重要作用,其应用系统的网络安全问题也越来越重要。该文阐述了江苏省发改委通过身份认证系统的建设,提升了其电子政务平台网络和系统的安全性。  关键词:身份认证;数字证书;PKl技术;电子政务  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2019)34-0263-01  近年来随着我国电子政务的飞速发展,信息系统的安全