面向汉越社交媒体文本的跨语言情感倾向性分析方法研究

来源 :赵亚丽 | 被引量 : 0次 | 上传用户:hjdrm225411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,针对特定的商品或同一热点事件下汉越社交媒体数据进行情感分析,能够把握两国舆情动态从而进一步开展关于热点事件分析、监测和预警任务,具有重大的研究价值和应用价值。面向社交媒体文本的汉越跨语言情感倾向性分析,存在越南语标注数据稀缺,情感表征映射难以对齐,评论特征学习不充分、语言知识利用不充分、语义表征不准确等研究问题,导致面向社交媒体的跨语言情感倾向性分析的准确率很低,针对以上问题,本文面向汉越社交媒体文本,主要完成了以下工作:(1)汉越社交媒体数据获取及情感语料库构建方法由于语言障碍和汉越社交媒体数据语料匮乏,并且很难获得高质量的汉越社交媒体数据标注语料,影响对于越南语情感倾向性分析的准确性。为了支持模型训练,通过爬虫技术,从微博、twitter搜集与关键词相关的社交媒体数据。根据不同应用场景下的汉越情感分类任务需求,研究设计相应的数据标注方法,构建汉越情感分类数据集,并根据任务需求进行数据标注。本章工作对后面的情感倾向性分析打下基础。(2)基于情感语义对抗的汉越跨语言情感倾向性分析方法任务旨在针对越南的商品评论进行情感倾向性分析,现有模型难以解决情感表征学习不充分,汉越跨语言情感表征映射不准确的问题,导致越南语等低资源语言的情感倾向性分析准确率较低。而情感词可以加强情感表征学习,对抗网络可以减小语言差异,因此考虑将情感词与评论特征进行融合,利用对抗的思想缩小汉越情感特征的差异。提出一种基于情感语义对抗的跨语言情感倾向性分析模型,将情感词与评论特征进行融合,利用对抗的思想缩小汉越情感特征的差异。利用对抗学习使模型学习到语言分布差异最小的表征,最终通过中文评论标签训练模型分类器完成情感分类任务。实验结果表明本文模型可以很好的实现双语情感语义对齐,相比最优基准模型准确率提高了2个百分点,取得了较明显的提升,且本文方法在差异性不同的语言对上都具有明显的优势。(3)基于图神经网络的汉越跨语言情感倾向性分析方法任务旨在对同一热点事件下的越南语评论进行情感倾向性分析,社交媒体评论存在表达形式多样化,上下文关系弱,表意不充分等问题,可利用汉越双语的正文来辅助对越南语评论的理解。同时评论文本数据中是存在一定的句法信息的,可以利用句法信息,帮助模型进一步理解其语义信息。因此本文提出了一种基于中越正文信息与越南语句法指导的跨语言情感倾向性分析方法,首先利用编码器及交叉注意力网络得到融合中越正文信息的越南语评论表征,然后应用图卷积模块对越南语评论的句法信息进行建模,提升了模型对越南语评论语义的理解,从而提高情感倾向性分析的准确率。结果表明提出方法相比最优基准模型准确率提高了2个百分点,取得了较明显的提升。(4)搭建面向汉语和越南语的社交媒体文本情感倾向性分析原型系统利用以上研究成果,设计并实现了面向汉越社交媒体文本的跨语言情感倾向性分析原型系统。该系统可以通过爬虫技术,根据用户给定的关键词,从微博、推特两大社交媒体平台采集关键词相关的社交媒体数据。系统利用本文提出汉越跨语言情感分析模型对收集到的数据进行分析和处理,为用户提供所需的商品及热点事件情感倾向性分析结果。系统采用B/S(浏览器/服务器)架构,集成了数据获取模块、数据分析模块以及页面展示模块,为用户提供了可视化的信息获取平台。
其他文献
癫痫是一种慢性脑神经疾病,由神经元过度和瞬时放电引起。全世界有数百万癫痫患者,患者不仅生活质量降低,丧失生产力,还可能导致过早死亡。在医学上,头皮或颅内脑电图反映了头部表面的电活动,包含大量病理信息,是作为诊断癫痫的重要标准之一。目前大多采用时频域、非线性等方法研究癫痫脑电,易忽略脑电空间位置信息。微状态分析方法能获取脑电的时间动态信息和空间位置信息,被用于很多脑神经疾病的研究,然而患者脑电微状态
学位
骨质疏松症是由于骨吸收和骨形成之间的动态平衡被打破,从而导致骨质流失,骨密度降低以及骨骼微细结构遭到破坏所形成的一种慢性骨代谢疾病。近年来,越来越多的研究证明,外泌体疗法将成为骨质疏松治疗的一个重要方向。外泌体是参与细胞间通信的脂质双分子层细胞外囊泡,可通过传递脂质、蛋白质、核酸的方式调节受体细胞的生物活性。其来源十分广泛,可存在于各种生物体液中,也由多种动物细胞分泌,如间充质干细胞等。脂肪来源的
期刊
脑机接口(BCI)可以提供一种将大脑信息传递给外界的通信方式,完成与中枢神经系统和外设的直接交互。基于运动想象的脑机接口(MI-BCI)由受试者的心理活动驱动,脑电信号在健康人和患有神经肌肉疾病的患者等个体中容易检测到。目前,MI-BCI对脑控机器人,如康复机器人、护理床机器人、无人驾驶飞行器等起着重要的作用。多数的MI-BCI,主要向外设提供离散的逻辑控制命令,如简单的方向控制意图,这是通过识别
学位
目的 探讨腹腔镜卵巢囊肿切除术对卵巢囊肿(OC)患者卵巢功能及生活质量的影响。方法 选取我院2019年1月至2020年12月收治的100例OC患者作为研究对象,以随机数字表法将其分为传统组(50例,传统开腹手术)和腹腔镜组(50例,腹腔镜卵巢囊肿切除术)。比较两组患者的临床指标、术后1年内的妊娠率和流产率、性激素水平、卵巢形态和功能指标、生活质量。结果 腹腔镜组的手术时长、卧床时长、住院时长均短于
期刊
随着热点案件的发生而伴生的涉案舆情新闻迅速传播,涉案新闻的主题分析及匹配变得尤为重要,亦是舆情监测的重要组成部分。然而,由于涉案新闻的数据来源广泛,格式多样化,网络爬取的涉案新闻文本分布不均衡,文本结构和语义差异性大,并且含有较多冗余信息,常规的主题分析方法很难抽取出涉案新闻中具有涉案偏好的主题信息,同时也导致了涉案新闻文本匹配性能较差。本文首先过滤出爬取新闻中的涉案新闻数据;其次从规整法律文书数
学位
在大数据时代,网络已经成为文化传播的主要载体,利用智能化信息技术及时获取和分析边疆民族文化大数据意义重大。跨境民族文档关联分析能够省时省力地帮助人们分析跨境民族文化间的差异性,及时获取跨境民族文化文本数据之间的关联关系。然而,跨境民族文化文档关联分析属于特定领域任务,文本数据中语义比较复杂,仅通过现有的深度学习模型探索跨境民族文化文本数据之间的关联存在一定的困难。本文立足于跨境民族文化领域的实际需
学位
自最高人民法院发布《类案检索指导意见》以来,类案检索在我国智慧司法建设中成为了重要的一部分。相似案例匹配作为类案检索的重要技术,对提高类案检索的准确率具有重要作用。本文以民间借贷案件作为对象,开展相似案例匹配方法研究有很好的应用和理论价值。民间借贷案件在司法领域中较为常见,但其中蕴含诸多要素和细节信息,常规的文本匹配方法难以很好地区分两案件裁判文书之间的差异。本文利用深度学习技术,针对民间借贷案件
学位
为了研究长链非编码RNA生长抑制特异性转录本5(lncRNA GAS5)在小鼠子宫中的表达及其在子宫内膜蜕膜化中的作用,本试验收集妊娠第1~8天的小鼠子宫组织样本,分离妊娠第4天的小鼠子宫内膜基质细胞(ESC)并通过类固醇构建体外诱导蜕膜化模型,采用实时荧光定量PCR(RT-qPCR)检测GAS5、蜕膜化标志因子蜕膜催乳素相关蛋白(Dtprp)、心脏神经脊衍生物表达转录因子2(Hand2)、骨形态
期刊
当前,热点案件吸引了人们较多的关注,并在微博等社交媒体平台上进行大量的讨论,引起涉案舆情,容易对法院的审判工作造成负面影响。识别涉案微博评论中的属性词,挖掘属性词的观点并判断其情感极性,有助于帮助法院监测涉案舆情,评估舆论走势。面向案件微博评论的属性级情感分析存在缺乏案件属性级情感分析语料、属性词抽取中缺乏案件领域知识的有效利用、观点词和属性词之间的关系利用不足等问题。本文围绕面向涉案微博评论的属
学位
社交网络的蓬勃发展,传播模式的多样化使得信息交流更加便捷,信息数据量更加丰富,人们不再仅仅是信息的接受者,同时也成为了内容的创作者。然而,参差不齐的用户数据给社交监管平台如何有选择地自动挖掘用户观点带来很大困难,网络谣言的肆虐将会对社会信任体系产生恶劣影响。网络舆情自动谣言检测技术通过对谣言特征的有效学习可以快速地识别网络舆情真假,对预测舆情走势起到指导作用,具有重要研究意义。本文围绕社交媒体平台
学位