基于短文本(句子级)的情感分类研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:qinglong21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类,也称为意见挖掘或情感定向分析。自21世纪初以来,情感分类已发展为自然语言处理领域的研究热点。在该领域,根据处理文本的不同粒度,大致分为三个级别:篇章级,句子级,方面级。本文着重研究短文本,即句子层面的情感分类研究与分析。当今社会,随着互联网技术的不断发展,各电商平台和社交网络也得到了飞速发展,人们越来越多的喜欢在互联网上发表自己的观点,或针对某一社会热点,或针对网购产品的使用体验等。其中,微博便以其简单,便捷,信息分享的高实时性等特点,迅速成为了国内网络舆情的发源地和集中地。网络舆情与公众的生活息息相关,同时也关系着社会的稳定与发展。通过对网络舆情进行分析和研究,可以防范重大事件的发生,帮助政府准确快速地做出决策。因此,本文对微博进行情感倾向性分析,以便更好地监控网络舆情,为政府决策提供支持。本文选取了长度不超过140个字节的微博数据集,对传统的小批量梯度下降算法进行改进,提出了一种基于热重启与余弦退火的训练批量周期变化策略SGDR,该方法不是单调的或者随机的改变batch_size,而是使batch_size在合理的边界值之间循环变化。使用循环batch_size而不是固定值进行训练,可以用于加速模型收敛,提高模型精度。然后基于已有的激活函数,提出了一种新的激活函数——SReLU函数,缓解梯度弥散,解决输出偏移问题。最后基于TextCNN,采用SGDR算法以及SReLU函数对微博短文本进行了研究,并对比多种神经网络模型和激活函数进行实验验证,得到了最终的实验结果。首先,本文使用Google提供的word2vec来构建和提取本文中使用的词向量模型。首先,本文采用基本神经网络模型,设置卷积核心信道数,卷积核宽度,学习速率等文本卷积神经网络参数。得到关于本数据集的最佳模型,在此模型的基础上验证本文提出的基于热重启与余弦退火的训练批量周期变化策略SGDR进行验证,然后对比其他激活函数验证本文提出的激活函数的有效性,最后结合本文所提出的方法和激活函数进行综合实验,并与其他神经网络模型进行对比实验,得到了宏查准率91.66%、宏查全率96.24%、准确率97.41%以及宏F1值93.21%的实验结果。
其他文献
目的了解大学生的营养知识和态度,为大学生开展健康教育提供依据。方法随机抽取学生861人,进行营养知识和态度的问卷调查。结果大学生营养知识平均得分(10.55±2.71);男生得分(10
小学作文教学是小学语文教学的重点。在小语文教学过程中,我经常发现学生们一谈到写作文,他们都很害怕。如何提高小学生的写作水平,消除学生对写作的恐惧心理,使他们愿意写作
合理布置小学数学作业是巩固已学知识、预习新知识的有效途径,活化作业设计,有助于提高小学数学教学效率。本文以"活化作业设计,激活课堂教学——小学数学课外作业的布置策略
<正> 柔石是“左联”五烈士之一,一九三一年二月七日被国民党反动派秘密杀害于上海龙华。作为忠诚的坚贞不渝的无产阶级文艺战土,柔石所从事的文艺工作是多方面的,所作出的业
我国首个开发区是1979年国务院批准设立的蛇口工业区,之后对我国社会经济发展产生了重要影响。回顾30多年开发区建设,我国开发区土地节约集约利用从理念到实践、从设槛到健全
随着小学教育改革工作的不断深入,广大教育工作者开始对小学高年级学生进行习作自主修改训练,以提高学生的学习效率。本文介绍了学生习作自主修改能力培养的意义,并提出树立
伴随着经济的快速发展,青壮劳动力集中从农村流向城市,在带动经济快速发展的同时,确实也引发了"留守儿童"成长的诸多问题。现在,"留守儿童"已经引起了全社会的高度关注,纷纷
武术是中华民族传统的体育项目,在幼儿中开展武术教学,可以使幼儿在强身健体的同时接受武术文化的熏陶和教育,传承中华民族优秀文化,培养民族自尊心和自信心。文章以文化传承
本文在产品定位的四大基本要素的基础上,提出了产品定位的四圆区位法则,详细分析了其中13种状态的顾 客认同度的具体情况。最后,文章进一步对四圆区位法则的应用提出了见解。
在平时日常技术服务工作中,我们在走访养殖户的时候,猪皮肤有各种红点是很常见的症状。红点只是一个表面的病症,为了准确诊断疾病,我们有必要对相应的几种会导致皮肤红点的猪病做