【摘 要】
:
随着互联网技术的迅猛发展,微博等社交平台日渐成熟,用户量剧增导致文本数据爆炸式增长,并且用户所发表的言论简短,口语化严重,导致准确地识别文本中隐含的情感信息更加困难。传统的情感分析方法主要依靠人工构建情感词典,并且需要针对不同领域的语料选择不同的特征选择方法,费时费力,已无法满足短文本情感分析的需求。因此,本文结合深度学习的方法,开发了一个基于深度学习的社交平台情感分析系统。主要研究工作如下:1)
论文部分内容阅读
随着互联网技术的迅猛发展,微博等社交平台日渐成熟,用户量剧增导致文本数据爆炸式增长,并且用户所发表的言论简短,口语化严重,导致准确地识别文本中隐含的情感信息更加困难。传统的情感分析方法主要依靠人工构建情感词典,并且需要针对不同领域的语料选择不同的特征选择方法,费时费力,已无法满足短文本情感分析的需求。因此,本文结合深度学习的方法,开发了一个基于深度学习的社交平台情感分析系统。主要研究工作如下:1)进行了数据获取并对数据进行了类别标注。停用词列表采用“哈工大停用词词库”。数据集一部分从网站直接下载,分析整理,另一部分使用Scrapy框架,结合Beautiful soup解析网页,爬取微博评论短文本,最后采用人工标注的方法完成实验数据集的整理。2)建立了基于深度学习的情感分析模型。首先利用嵌入模块将处理好的实验数据,生成嵌入矩阵。然后利用LSTM捕获长距离依赖关系,利用TextCNN捕获单词之间的依赖关系。最后输出文本具体情感类别。分别与基于TextCNN的情感分析模型、基于RNN的情感分析模型、基于LSTM的情感分析模型在同一数据集上进行对比实验,结果表明,基于LSTM+TextCNN的情感分析模型,分类效果最好,准确率高达91.22%。3)开发了社交平台情感分析系统。以微博短文本情感分析为应用场景,以本文中实验方法为基础,设计并实现了一个文本情感分析系统。首先对系统进行需求分析,根据需求分析设计系统整体架构,主要包括数据的获取及存储、数据处理、模型训练、分类预测、人机交互五部分,采用Vue、Django、Scrapy框架进行搭建,Java、Python语言进行编写,最后利用ECharts实现系统可视化。
其他文献
EPC总承包模式是一种应用广泛的项目管理模式,因其成本较低、纠纷较少、效率较高等优势在交通基础设施建设领域中也逐步推广。采取EPC模式的交通基建项目具有投入大、周期长、技术复杂等特点,因此承包商往往组建联合体承接项目。在联合体运行过程中,收益分配不当会损害成员的积极性,甚至导致合作失败。为解决联合体收益分配不当的问题,促进EPC模式在交通基建领域的发展,对交通基建EPC项目联合体收益分配问题进行研
由于建筑施工现场条件多变,工程结构复杂,多工种交叉作业和施工进度快等原因,坍塌事故数量一直居高不下。坍塌事故一旦发生,极易造成大量的人员伤亡和巨大经济损失,致使施工安全管理难度逐渐加大。为了建立长效的安全生产机制,保障我国建筑业的稳步发展,迫切需要提高安全生产管理水平,降低坍塌事故的发生。为此,本研究以住建部“房屋市政工程生产安全事故情况通报”为主要事故来源,同时结合网络检索结果,以2012-20
预处理是破坏木质纤维素的致密结构进而促进后续酶解的关键步骤。预处理过程中产生的抑制物导致微生物难以在木质纤维素体系中生存,因此通过脱毒处理去除抑制物是进行高效油脂发酵的前提。生物脱毒是一种极具优势的脱毒方式,它能够在有效保留可发酵单糖的前提下,选择性地去除弱有机酸和呋喃醛类抑制物;然而生物脱毒法去除酚醛抑制物的效率较低。以往的研究结果表明,即使通过生物脱毒法对原料进行了深度解毒,大部分油脂酵母仍然
随着信息时代的发展和高新科技的更新换代,微电子领域俨然走在时代的前沿迅速发展。传统的器件尺寸已经满足不了人们对更小电子设备的追求,因此需要更小尺寸的电子设备也就需要更小的微电子器件。然而传统的MOSFET器件主要栅介质层为Si O_2,当需求更小尺寸的MOS器件时,介电常数相对较小的Si O_2层会导致电子的的直接隧穿效应,即栅极需要承受更大的电场,从而引起漏电流增大和可靠性下降等严峻的问题,间接
社会经济飞速发展背景下,自动驾驶车辆在不久的将来也将进入千家万户,为人们出行带来更大的便利。安全性保障是自动驾驶技术应用的前提,而若不能及时准确地检测和识别交通标志牌则极易引发交通事故,因此研究探索交通标志的实时检测与识别技术至关重要。论文以提高道路各种大小尺度的交通标志检测识别率为目的,结合多尺度卷积神经网络和组合矩特征提取等图像处理方式,提出交通标志图像的检测和识别方法,主要研究内容如下。1)
互联网的飞速发展,导致社会产生了海量的数据信息,文本作为这些数据信息的主要载体,在互联网信息流中占据越来越突出的地位。怎样才能高效快速地获取目标所需的信息,将无序的海量文本数据按需组织,这是一个亟待解决的问题。文本聚类作为一种有效提取、分类、挖掘文本信息的方法,在数据信息大爆炸时代具有重要的应用价值。空间向量模型由于其简单、高效被广泛应用于文本聚类研究中,但是用空间向量模型表示文本时存在高维稀疏问
化学链燃烧技术借助载氧体传递氧可实现燃料与空气的非混合接触燃烧,具有高效且兼顾经济性的CO2捕集能力,并避免污染物NOx的生成,成为解决因温室气体导致的全球变暖问题的一个重要突破口。在燃煤化学链燃烧过程中煤灰不可避免地在系统内累积,因此探究煤灰与载氧体间相互作用十分必要。本文以CaSO4/Ben载氧体为研究对象,以自行搭建的间歇式流化床为主要实验装置,从反应温度、修饰组分种类及添加量、作用机制等方
税收风险管理是深度融合于税款征收、税源管理、纳税服务等各个税务环节的现代化税收治理方法。近年来随着经济形势的变化,我国征管规模越来越庞大,减税降费政策落地使得税收增长明显放缓,有限的税收征管资源难以满足日益激增的纳税人办税需求,扎紧税收风险管理的口子,是税务机关聚焦组织收入主责主业、确保减税降费政策落地落实的重要措施,是确保营商环境优化,稳步提高纳税遵从的关键举措。实施税收风险管理是现代税收管理发
金融数据作为一种具有高噪声、非线性的复杂时间序列数据,常被作为时间序列研究者的首选。股票市场作为金融市场的代表性数据,可以用其来衡量金融市场的发展情况。为了研究股票市场的发展趋势,将分析股票市场方法分为两个方面:基本面分析和技术分析。基本面分析从国家宏观指标、经济政策等方面出发,结合金融经济理论,分析股票的趋势;技术分析则是通过研究股票市场的数据,提出相关理论以及研究技术指标等发现股票趋势。股票市
美食文化传承至今,已经演变出了多样的形式和丰富的含义。自从《舌尖上的中国》热播之后,纪录片影像已经成为了传播美食文化的重要方式。美食纪录片以美食为桥梁,在传递美食文化的基础上,展现了区域的自然风光和人文精神。再现理论是分析美学的重要理论,源起古希腊时期,经历了从“摹仿”到“再现”的变迁。研究学者众多,如亚里士多德、古德曼、沃尔海姆等。最初,再现是从绘画的角度来研究艺术作品,但随着时间的推移和艺术形