基于深度学习的文本语义特征和情感意向的分析与研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wanghui1234567890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的日益发展,各类提供着丰富功能的应用平台迅速普及。人们在享受到便捷服务的同时,可以通过网络表达自己对各类事物的意见和看法。并且伴随网民数量的迅速增加,网络中带有用户主观信息的数据规模也呈爆炸式增长。这些主观信息对于个人的消费决策和商家的营销策略具有重大的参考价值。因此,使用文本的情感分析技术分析这些海量的数据,并从中挖掘用户的意见和价值趋向具有深远的意义和重大的研究价值。据此,本文对情感分析的各类方法进行总结和对比,并对实现情感分析任务的各个算法流程进行深入研究。结合传统传统方法和深度学习算法,对其涉及的文本向量化表示和特征提取两部分进行改进,最终提出一种有效的情感分析方法。在文本向量化表示部分,本文针对于传统基于上下文词向量模型因相似语境而弱化向量表示语义相关性的问题,融合了词向量训练优化算法、传统情感词典和迭代算法等多种策略,提出精确化文本表示模型(PTR)。该模型以传统Skip-gram模型为基础,从以下三方面对传统方法进行改进:(1)在训练词向量时,结合训练中心词的语境信息、词语自身构成信息和情感信息、文本极性信息指导原始的训练过程,获得包含更多信息的初始精确化向量;(2)依据相似性度量标准和情感词典对词或者短语级别的文本分类非常准确等特点,筛选出与中心词语义相近的近邻词,辅助后续中心词的向量精确化过程;(3)通过最小化中心词与各个近邻词之间的距离和,对初始中心词的精确化词向量进行调整,生成中心词的最终的精确化表示。最终,本文通过实验证明了PTR模型能在一定程度上缓解上述问题,可提升词向量表示的语义相关性。在文本的特征提取部分,本文依据深度学习中RNN网络善于提取文本的时序特征、CNN网络具有良好捕捉信息局部特征的能力、Self-Attention机制可以通过学习句子内部各个词之间的依赖关系捕获文本的结构信息等优点,设计了SA-RNN-CNN模型。该模型通过各个网络结构提取不同类型的文本特征,并在网络的相应层级上对各种特征进行融合,最后通过softmax分类器完成情感分类。本文设计对比实验对该模型进行验证,结果表明,SA-RNN-CNN模型对文本特征进行多类型、多层次的提取和融合的处理方式是有效的,能够提升模型的分析性能。最后,本文将情感分析技术应用于餐饮领域,设计并实现了餐馆评论情感分析系统。同时将本文提出的PTR和SA-RNN-CNN模型应用于该系统,实现了对餐馆评论文本的自动化分类。
其他文献
网络产品遭受的攻击变幻莫测,随之产生多种形式的漏洞,且漏洞数量逐年增加,通过舆情对产品信息安全质量进行评价,及时发现产品存在的安全问题对网络空间安全、用户信息财产安全至关重要。针对市场上网络产品种类众多、安全质量评论信息海量且碎片化、信息之间缺少关联性等挑战,开展了面向产品信息安全评估的知识图谱研究,整合海量网络产品安全信息,进行高效地分析、挖掘,获取有用的安全信息。主要工作如下:(1)提出了一种
等几何分析是利用CAD(Computer Aided Design,计算机辅助设计)模型的样条表示来进行物理仿真模拟的新方法。该方法为CAD和CAE(Computer Aided Engineering,计算机辅助工程)的
公共自行车系统(Public Bike System,PBS)是城市交通的重要组成部分,日益增长的用户需求给PBS维护人员带来不小的挑战。研究PBS供需不平衡问题,对城市治理、提升城市服务质量具有实际意义。目前的公共自行车需求预测多采用传统的神经网络方法,很难捕获数据中的时空相关性,预测结果难以达到精度要求;行程规划在移动计算中可用于为用户个体导航,但其算法研究较少,且在疏导人流、提高系统持续服务
医学图像报告生成旨在为一张医学图像自动生成一段描述其内容的自然语言,这种技术在医学图像理解和计算机辅助诊断等方面有着巨大的应用价值。不同于医学图像分类和标注等粗粒度的医学图像理解任务,为医学图像生成报告需要将图像转化为连续的文本,这首先就涉及到图像特征的提取,提取到高质量的图像特征是该任务成功的前提,其次涉及到文本生成,得到图像特征后,要将图像特征转化为通顺连贯并且满足语法约束的医学报告。因此,该
形式矩阵环作为矩阵环的推广,是代数学的重要研究对象。n阶形式矩阵环是由二阶形式矩阵环发展而来。1958年,Morita给出了Morita Context的定义,并用它来研究模范畴的等价性。1973年之后,AD.Sands等开始将Morita context看成一个环进行研究,称之为Morita context环,后来又称之为形式矩阵环或二阶形式矩阵环,研究内容十分丰富。2003年,Каравдин
自高速运行的的交通工具问世以来,鸟击问题一直困扰着包括飞机、高铁、磁悬浮列车在内的交通工具。而在这些交通工具中鸟击对飞机的飞行安全危害最大,鸟击最常出现在飞机起飞
圆 口铜鱼(Coreius guichenoti)属于鲤科(Cyprinidae)、鮈亚科(Gotiongiae)、铜鱼属(Coreius),其种群数量大,是我国长江上游地区特有的重要经济鱼类和曾经的主要捕捞对象。近
自从导电聚合物被发现以来,有机半导体材料因为在发光二极管,场效应晶体管和光伏电池等领域的巨大应用前景而备受研究者们的关注。与无机半导体材料比较,有机半导体材料具有结构可剪裁、性能可调、可溶液加工、可弯曲等优点。然而,与无机半导体连续的能带结构不同的是,有机半导体的能级是分立的,电荷传输依赖于载流子从一个分子传输到另一个分子的能力,而这与分子堆积,能级和带隙息息相关。因此,探索有机半导体中结构和性能
自20世纪90年代末以来,我国养猪产业逐渐向着规模化、集约化和产业化的方向发展。现阶段,“南猪北移”的大趋势使得很多大型养殖企业纷纷在东北地区建立养猪场。虽然东北地区拥有丰富的土地资源,但北方冬季寒冷,猪舍为减少能量消耗主要以保温为主,舍内通风次数很少甚至是不通风。这种养殖方式会导致有害气体、湿气、粉尘及病原微生物等长期聚集在舍内,易爆发各类疫病。在众多环境参数中氨气(NH_3)在猪舍内含量最高,
图论作为组合数学的一个分支,具有悠久的历史.本文的研究对象仅限于二部图.特别地,如果多重二部图G中任意两个顶点之间的边数至多为2,则称G为标准多重二部图.我们称二部图中的圈的集合是独立的当且仅当其中任意两个圈顶点不相交.二部图中的独立圈(点不交的圈)以及独立弦圈的存在性问题是图论研究中较为重要的问题之一,本文主要研究了标准多重二部图中的独立4长重圈的存在性以及二部图中含独立弦圈的存在性,给出了相应