基于新闻长文本的多种分类方法的比较研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:cocomalully
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理(NLP)领域的一个分支,本文的研究内容是文本分类中的新闻长文本分类问题。本文基于新浪新闻客户端使用Python工具包进行数据爬虫,总共爬取了财经、军事、旅游、科技、健康、娱乐和体育等七个类别共2万多条新闻数据,在实证分析部分将传统机器学习算法和深度学习算法进行应用到该现实问题当中,对比分析不同方法进行文本分类的优劣。首先,本文基于传统文本表示和特征选择方法以及传统机器学习算法支持向量机进行文本分类;然后,在传统机器学习算法中引入词向量,使用神经网络模型训练的词向量和文档向量来进行文本表示,结合支持向量机(SVM)模型进行文本分类,使用词向量来表示文本避免了“维度爆炸”而且利用了文本语义和语序信息,因此模型分类结果得到了很大的提升;其次,使用卷积神经网络(textCNN)以及长短期记忆网络(LSTM)进行文本分类,深度学习模型相比传统机器学习模型具有自动提取重要特征的特点,能够避免繁琐复杂的特征工程;最后,考虑到卷积神经网络只能够考虑文本的局部信息,而循环神经网络考虑文本的全局信息但是不能体现信息的重要性,本文在传统LSTM模型中引入了Attention机制,设计出的模型被称为Bi-LSTM-Attention模型,该模型能够提升分类效果,通过实验证明了Attention机制的有效性。
其他文献
亚硝酸盐是一种无机含氮盐,有较强毒性和致癌性,是食品安全检测中的重要指标之一,准确快速检测食品中的亚硝酸盐含量对保障食品安全和人类健康具有重要意义。与传统的仪器分
随着飞行器技术的发展与国防需求的提高,高速飞行器作为一种新式武器,得到了各个军事强国的密切关注。制导与姿态控制系统是高速飞行器控制系统的两个重要部分,高速飞行器飞行环境复杂,为了保证飞行器精确,可靠的完成任务,有必要对飞行器的制导律与姿态控制律展开深入的研究,本文以高速飞行器为研究对象,以滑模控制方法为主要研究方法,进行了以下几个方面的研究:首先引入描述飞行器运动的常用坐标系以及不同坐标系之间的转
法人董事是指法人股东依照法律、公司章程被选举担任公司董事,法人股东担任董事最主要的特点即需要指派自然人作为其代表代为行使董事职权。本文通过研究我国现存的与法人董
草原土壤是草原生态系统的重要组成部分,本研究选择内蒙古自治区内的几种典型草原,在自然光照射下采集高光谱地面图像数据,利用光谱以及卷积神经网络对采集图像数据进行识别
行为识别是计算机视觉的一个基本问题,随着科技的发展,现在很多地方都要用到这一技术,例如智能视频监控、虚拟现实、互联网上的视频检索、人机交互等场景,具备广阔的前景。然而行为识别目前还存在包括如何提取强有力的特征、如何整合多种特征等诸多问题和难点。这些问题影响了行为识别技术在工程上的落地,所以本文将主要探讨如何提升行为识别算法的准确性和鲁棒性。随着2012年卷积神经网络在图像领域取得惊艳成果,近年来陆
近年来,对高速飞行器的研究逐渐成为航空航天领域的一个主要研究方向。随着相关配套技术的快速发展,高速飞行器所面临的飞行环境也日趋复杂化,飞行过程中的不确定性也随之增加。因此,针对适用于高速飞行器的鲁棒控制方法也提出了更严格的要求。但是,传统的鲁棒控制方法对于飞控系统中不确定性的处理却较为保守,难以同时兼顾飞行器的鲁棒稳定性和其他控制性能。本文围绕具有不确定性的高速飞行器展开了相关研究,主要工作如下:
目的 钙敏感受体(calcium sensing receptor,CaSR)在多数肿瘤细胞中均有表达,包括肺腺癌细胞,尤其是在高分化肺癌中高表达。钙离子作为重要的第二信使,参与许多细胞学行为,不规则钙振荡作为其表现形式之一参与信号通路的转导,而CaSR可以介导不规则钙振荡发生。本实验初步探究CaSR介导的不规则钙振荡在A549细胞中调控NFκB转录的可能机制。方法 1.用钙离子探针Fura-2/
随着机器人应用领域的不断扩大,人们对移动机器人的控制性能包括暂态性能、稳态性能等要求越来越高,这就要求所设计的移动机器人控制器需要具备良好的预先指定性能。同时由于
公共利益作为反不正当竞争法的立法目标,同竞争者利益、消费者利益具有同等地位,但与竞争者利益、消费者利益不同,公共利益法律地位问题并没有引起足够的重视。尤其随着“互
多相流体流动在自然界和工程领域中是普遍存在的,如强化采油过程、液滴在液膜上的飞溅过程和微通道中液滴或者气泡的产生等,其吸引了科学和工程领域相关学者的广泛关注。多相