基于随机森林模型的情感分类的研究

来源 :商业2.0-市场与监管 | 被引量 : 0次 | 上传用户:wangyaofengw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:情感分类是NLP应用的一个分支,在舆情控制,评价预测以及推荐方面都有重要应用。目前常用的情感分类方法有K近邻算法、朴素贝叶斯分类、支持向量机、决策树等。本文提出采用随机森林进行情感分类的研究,采取随机森林作为分类模型,文本评论的句向量作为模型输入,在15万条的评论数据上训练,取得了不错的预测结果。由于随机森林算法方便并行化,该方案,极其容易部属到集群中,进行后续的工程化应用。
  关键词:word2vec;随机森林;情感分类
  在当代互联网形式复杂的各种数字信息中,文本信息占据着重要的作用。文本自古以来文本就扮演着传承人类智慧结晶的角色,是最重要的知识来源。
  情感分类目前在知识发现、数字图书等领域扮演着不可或缺的重要角色。目前常用的情感分类方法有K近邻算法、朴素贝叶斯分类、支持向量机、决策树等,另一种比较常用的方法是集成分类算法,这种方法通过构建并结合多个基分类器来完成分类的任务,其中在情感分类中比较广泛应用的是Breiman在2001年提出的随机森林算法[1],并且其具有良好的分类性能、容易并行化、不易过拟合、构建过程中无偏估计泛化误差等优点,因此对随机森林在情感分类问题中的研究和应用有着重要的意义。
  1.数据集
  我们从新浪微博爬取781224条评论数据,并对其批量打了标签,经过数据分析,我们发现数据集中包含很多杂乱信息,需要对应清洗,其中包括超链接部分,特殊字符部分,英文单和数字的处理,以及对应长度的考虑。我们针对超链接,特殊字符,空格采取的是去除策略;对英文,数字采取正则表达式的方式进行替换,替换成特殊字符;为了兼顾训练数据的质量和数据规模,我们将评论长度限制在10到20之间。
  中文是一种粘性语言,英文天然有空格进行分词,因此为了向量化的表示,我们需要对中文进行分词处理,常见的分词方式有三种:基于前向后向的匹配分词,基于概率的统计分词,以及基于神经网络的分词,这里我们采用基于概率的统计分词方法,选取清华开源的thulac分词工具[4]进行分词。
  2.向量化
  计算机只能识别数字化,向量化的信息,因为需要将我们的文本表示方式转换成向量化的方式,其核心为词向量。现有词向量的主流方式有以word2vec和glove为主的静态词向量,以及以ELMO为主流的神经网络编码,以及以bagging思想为主的one-hot,tf-idf词编码。考虑到模型为随机森林,我们这里采取word2vec进行词编码。个人训练的word2vec信息如下表。
  考虑到模型的输入问题,需要将词向量转变为句向量,此处采取最简单的方式,即以词向量的tf-idf加权平均和表示句向量。
  3.模型介绍
  由于一个决策树的分类结果往往不够准确,或者容易产生过拟合问题,在2001年,Breiman从袋装算法和随机特征子空间方法得到启发,提出了随机森林算法[1]。随机森林利用袋装算法的有放回抽样,从原始样本中抽取多个样本子集,并使用这几个样本对多个决策树模型训练,在训练过程中使用借鉴了随机特征子空间方法,在特征集中抽取部分特征进行决策树的分裂,最后集成多个决策树称为一个集成分类器,這个集成分类器称为随机森林。
  随机森林算法按结构可以分为三个部分,子样本集的生成,决策树的构建,投票产生结果。子样本集的生成。典型是袋装算法的样本自助聚集法,对原始样本集进行有放回的随机抽样,形成与原始样本集大小一样的子样本集,并重复进行k次(k为基分类器的个数)。决策树的构建。随机森林的决策树与普通的决策树构建方式基本一致,不同的是随机森林的决策树在进行分裂时选择的特征并不是对整个特征全集进行搜索,而是随机选取k个特征进行划分。投票产生结果。随机森林的分类结果是各个基分类器,即决策树,进行投票得出。
  4.实验
  首先我们从186413条评论数据中,划分了20000条作为测试集合,其余数据作为训练集训练模型,将准备好的句向量作为随机森林模型的输入,得到如下的评价指标。可以看出模型的效果还算不错。
  5.总结
  本文我们对随机森林在情感分类上的应用进行了探索,取得了还算不错的结果。该方法的好处是方便部属到分布式集群上,做分布式计算。当然,在情感分类方面也可以尝试采用最新的神经网络模型,例如Bert,但是其在分布式方面的应用比较困难。
  引用
  [1]BreimanL.RandomForests[J].MachineLearning,2001,45:5-32
  [2]ZhongguoLi,MaosongSun.PunctuationasImplicitAnnotationsforChineseWordSegmentation.ComputationalLinguistics,vol.35,no.4,pp.505-512,2009.
  [3]张其龙.基于随机森林的情感分类研究与应用[D].2019.
  [4]罗新.基于随机森林的文本分类模型研究[J].农业图书情报学刊,2016,028(011):50-54.
  [5]彭徵,王灵矫,郭华.基于随机森林的文本分类并行化[J]. 计算机科学,2018, 45(12):155-159.
  [6]田宝明,戴新宇,陈家骏.一种基于随机森林的多视角文本分类方法[J].中文信息学报,2009.
其他文献
摘要:公民的生育权随着时代变革已由身份权转变为人格权,可以作为人的基本人权。在押罪犯的生育权作为不可剥夺的“天赋人权”,在我国现行法律制度存在缺陷、行刑理念滞后、社会支持体系缺位等情景下未能得到应有保障。我国在押罪犯生育权的实现道路上遭遇了相关法规模糊的制度困境、社会落后行刑观禁锢的思想困境、司法投入不足的经济困境。吸收国外通过社会化行刑和清晰科学的囚犯离狱制度有助于在押罪犯生育权实现的司法实践与
期刊
摘要:市政工程属于民生工程,为确保市政工程的施工质量与施工效率,一定要充分发挥出市政工程施工中质量控制技术的作用。基于此,本文对市政工程施工中质量控制技术进行深入研究,具有重要意义。  关键词:市政工程管理;施工;质量控制  随着我国施工技术水平的不断提高,人们越来越重视施工过程中的技术管理与技术控制。在施工工程中,市政工程是一大重要组成部分,为能够获取更高的施工质量,保证人们的正常生活与生产工作
期刊
摘要:本文在对外语类学生干部综合能力和社会对外语类人才的能力和素质需求的调查与研究上,基于“00后”这一群体中学生干部培养存在的问题,运用需求分析理论,结合社会普遍需求的人才能力和素质要求分析,对学生干部的可持续性培养进行探析,对学生工作培养体系和考核机制进行再次思考,构建可持续培养机制和考核发展机制,以切实提高外语类综合人才的可持续发展。  关键词:需求分析;学生干部;可持续培养  2018 年
期刊
摘要:伴随着我国经济的快速发展,改革开放也加大了步伐,企业之间的竞争也越来越激烈。企业的管理制度也奉行“人尽其才,物尽其用”的原则,充分发挥各自的优势。但是,在历史发展的长河中,环境的保护是我国的基本国策,是企业管理中的重要组成部分,在企业发展中也起着关键的作用。环境质量的好坏不但与整个的社会利益紧密相连,与企业的发展前景也息息相关。  关键词:企业管理;环境风险;影响  企业在现代社会的经济发展
期刊
摘要:本文对交通肇事案件中的逃逸及出现人员死亡的情形进行分析,对经典案例进行回顾,对国内外学者的不同理解进行整理,本文使用文献分析法、对比分析法对这一课题进行探究。发现我国对于交通肇事罪中加重情节的立法目的和判例行文思路存在脱节,对于行为人的部分行为缺少法律评价,不利于体现法的指引性作用,刑法表述需要对此更加的明确完善。本文在立法目的层面探讨了现行法中相关法条的合理性和犯罪构成的严谨性,对于刑法上
期刊
摘要:智慧城市的发展动力影响因素很多,通过查阅相关文献对智慧城市的科学定义和概念内涵进行分析,总结得出推动我国智慧城市不断发展的内在动力为国家治理体系和治理能力的建设、经济结构转型以及城市科技竞争力,坚持智慧城市的不断发展是提高城市综合管理能力的重要战略。  关键词:智慧城市;概念内涵;内在动力  1.智慧城市的概念和内涵  智慧城市是基于“智慧地球”的发展理念由IBM在智慧城市愿景中提出,其愿景
期刊
摘要:在这个互联网技术迅猛发展的时代,我们的个人隐私随时会被“侵犯”,在大数据的笼罩之下,我们几乎变成了一个“透明人”。当我们的信息控制权不再掌握在自己的手里,我们就不得不去研究在大数据时代下隐私权保护问题。本文着重关注大数据时代下个人隐私权保护的新变化,从理论出发探索我国隐私权保护中存在的重点法律问题,将个人隐私权的保护置于大数据时代背景下进行研究,深入、全面地了解此问题,在此基础上,提出法律完
期刊
摘要:在企业管理技术和水平演变的长河中,人们总是在运用各种系统的工具方法,推进提升企业营运效率,改善企业的营运效果。特别是将关键绩效指标法、经济增加值、平衡记分卡等绩效评价工具运用现代企业管理,进一步提升了企业的管理水平、管理质量、持续发展能力。但是,绩效管理的核心是通过绩效评价和激励管理,寻找差距和原因,进一步改进企业管理水平。同样,探索企业管理的工具和方法就像人们在探索未知的科学领域一样,无止
期刊
摘要:在中国步入老龄化社会并以全球最快老龄化增速发展的背景下,康养产业具有广阔的发展前景,老年人的康养问题逐渐成为社会关注的重点,生态康养、休闲旅游、养生保健市场等的热度逐渐升温,产业发展潜力巨大。深度挖掘乡村振兴背景下,因地制宜地解决康养产业发展中的问题。  关键词:老龄化;乡村康养产业;乡村振兴  从2010年开始,我国人口老龄化速度已进入加速阶段,法国完成老龄化进程共花115年,美国花了75
期刊
摘要:随着我国互联网技术的快速发展,网约车这一新事物应运而生,以滴滴、神州专车、易到为代表的网约车平台迅速扩张,但在我们享受科技红利的同时,网约车交通事故等问题也越来越频发。由于当前规制网约车的法律法规不够健全,特别是对主体间法律关系的界定较模糊,在发生交通事故后,各地法院审判时出现许多同案不同判的现象,不利于保护各方主体的合法权益,因此有必要对网约车服务法律关系问题进行探讨。认定网约车服务中的法
期刊