基于卷积神经网络的文本分类方法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:mythology_leonie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以互联网、大数据和深度学习为标志的海量信息时代的到来,如何从这些文本数据中挖掘出大量的有用信息是当前热门的研究课题,具有非常重要的研究意义以及应用价值。因此,针对这些文本信息的文本挖掘技术受到人们的广泛关注。而文本分类技术是文本挖掘的一个核心的研究任务,一直备受学术界和工业界的关注。自2006年第一次提出深度学习概念以来,深度学习技术陆续在图像识别、语音识别、机器翻译等领域中取得了重大的突破,极大地促进了人工智能的发展。相比较于传统的机器学习算法,深度学习技术具有更加出色的效果。其中,卷积神经网络作为深度学习技术的典型代表,已经被证明在图像分类、图像识别领域中十分有效。本文尝试探索利用卷积神经网络对文本特征进行提取,因此,本文主要做了以下几项工作:(1)本文主要深入研究了几种常见的文本分类任务中文本表示学习方法。首先,介绍了几种语言模型,如Bengio等人的神经概率语言模型(Neural Probability Language Model)、Collobert和Weston的C&W模型,Mikolov等人的BOW与Skip-Gram模型等,并比较了几种模型在两种常见的任务上的表现。词向量作为语言模型的副产物,通过对比实验发现,Skip-Gram模型生成的词向量更加适合本文设计的层级卷积神经网络文本分类模型。(2)本文设计了一种层级卷积神经网络模型来完成文本分类任务。分类任务中的文本数据常常具有层级关系,如一个句子由多个字组成,一个段落由多个句子组成,一篇文章由多个段落组成,这种层级关系在许多文本数据中常常存在。因此,为了更好地提取出这种层级特征,本文设计了一种层级结构的卷积神经网络分类模型,该模型能够很好地提取出这种层级特征,从而能够丰富特征空间。与传统的卷积神经网络分类模型、基于LSTM网络的分类模型的对比实验证明了本文设计的层级结构的卷积神经网络分类模型具有更好的性能,分类效果更好。
其他文献
为了弥补秋淡蔬菜供应不足和解决粮菜争地矛盾,增加农民收入,从1995年开始,笔者在洛阳市偃师、伊川等地区进行番茄与夏玉米间作套种试验研究,并大面积推广,使番茄亩产量达到4040公斤,产值4400元
综述了目前国内外有关旅游业的区域经济影响研究,立足于宏观经济的基本理论,结合旅游业特质,从无形贸易角度,提出评价旅游业在区域国民经济中地位的指标体系,并运用宏观分析
近年来,青海农田鼠害发生严重,表现在种类多、分布广、密度大。小麦、青稞、马铃薯、蚕豆、豌豆、油菜等六大作物均受害,一般减产10%~30%。据调查,主要分布在海拔2400米以上的浅山、半浅半脑
近年来,含油气系统的研究与评价已经成为有效预测和发现油气资源的重要工具。较全面的分析了含油气系统理论的基本概念,归纳了含油气系统的研究现状,并总结了含油气系统理论应用
曹庄煤矿-480m水平中央泵房、变电所主要处在三灰之上的粉砂岩层中,质细、性脆,节理发育,构造复杂,断层处围岩更加松散破碎、构造应力集中,巷道维护极其困难。针对巷道(硐室)岩
根据彩色图像的数据结构将图像转化为适应人类视觉系统的HSV模式分量,并排列组合成新的灰度图像,将该灰度图像实行粗细分层操作后分别按JPEG压缩标准进行压缩编码。实验表明,该算法得到的压缩图像在与JPEG同等质量的条件下,数据量要远小于JPEG压缩的数据量,操作简单快速,可实现彩色图像的高质量快速压缩和预览。
【正】 彊村先生史席: 七八年前,林铁尊道尹宦温州时,曾承其介数词请益于先生,并于林公处数见先生手教。日月不居,计先生忘怀久久矣。顷从事梦窗年谱,于尊著词笺略有出入。又
根据鹤煤公司九矿实际,综合考虑各种因素后,提出了扩建方案应遵循的原则。依据扩建原则,提出了3个扩建方案,经过多方面对比优化,确定开拓方案。
【正】 这篇译文的原文是今年5月北京图书馆社会科学参考组的同志在收集国家名誉主席宋庆龄用英文撰写的论著及国外人士撰写有关宋主席的文字时查到的,原载纽约1930年1月22日
文章首先基于国家间的直接消耗系数,明确在全球生产网络中与中国关联最为紧密的国家所在。其次,借助35个行业上游度和价值链长度测算与对比分析来明确中美日韩四国在全球生产