融合表情符号的淘宝评论情感分析系统设计与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:llzx373
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的发展,相比于传统的购物方式,人们更加热衷于网络购物,并且喜欢在京东、淘宝等购物网站上发表评论。同时,中文文本不再是在线评论情感表达的唯一载体。表情符号渐渐兴起并且快速演变,受到了广大网民的青睐。网络购物中,在线评论扮演着重要角色,对用户的购物决策产生重大的影响。因此,对在线评论进行情感分析,有利于商家掌握用户的真实评价,改善产品质量,给客户提供更加舒适的服务。关于在线评论的情感分析研究成果很多,但大多数都忽略了表情符号这一情感特征,将表情符号视作噪声数据。为探索表情符号对于情感分析的影响,本文以淘宝评论为研究对象,将评论中的文本信息和表情符号结合,分析评论表达的情感态度。通过实验,本文验证了融合表情符号的情感分析算法能有效提升情感分析的准确率,并且选择其中分类效果最佳的方法作为系统的算法模型,设计并实现了情感分析系统。论文的主要研究工作包括以下几个部分:(1)数据采集与预处理。当前开源的数据集大多数都是纯文本,为获取含有表情符号的在线评论数据集,经调查分析后,选择淘宝网站作为数据集的来源。将Scrapy框架与自动测试化工具Selenium结合,设计并实现了网络爬虫。根据淘宝网站的特点,设置了爬取策略和反爬机制,爬取淘宝评论,随后对数据集进行清洗与预处理。(2)情感分析算法的研究与实现。针对在线评论的情感分析研究中,大多数学者都只考虑纯文本信息,将表情符号视为噪声数据。本文将表情符号与中文文本结合,分别采用基于情感词典和深度学习的方法进行情感分析,其中深度学习方法包括结合注意力机制的Bi-LSTM模型以及Transformer模型。基于情感词典的情感分析方法中,在通用情感词典的基础上扩充情感词典,构建表情符号、程度副词等情感词典,并结合数据的文本特征设计了情感得分规则,计算评论的情感得分,判断情感极性;结合注意力机制的Bi-LSTM模型中,设计了表情符号的向量表示方法,并将表情符号的向量表示与基于文本信息的向量表示进行语义融合;Transformer模型中,将表情符号视为与文本信息同一级元素,做相同处理并输入模型。通过实验,得出结论:融合表情符号的情感分析算法能有效提升情感分析的准确率。(3)情感分析系统的设计与实现。系统包括数据采集、数据查询展示以及情感分析等主要功能。用户可以获取商品评论的情感分析结果,从中得到客观的决策参考信息。
其他文献
随着大数据时代的到来,数据资源的价值逐渐受到关注与认可,人们对于数据交易的需求也在日益增加。然而,我国目前的数据交易仍面临着诸多问题,其中,数据交易过程中的数据安全问题是重中之重。类似于传统的商品交易,数据交易也是多方参与主体相互促进、相互制约的演化博弈过程。因此,本文从数据安全角度出发,展开对数据交易四方参与主体的演化博弈研究。本文基于数据安全角度,首先,结合数据交易的发展现状和现有研究,将政府
学位
随着信息技术的快速发展,人们同时扮演着信息的消费者和生产者两个角色。作为一种从海量数据中快速发现信息的技术手段,推荐系统逐渐成为解决信息过载问题的主要方式之一,被广泛应用于电子商务、音乐/视频服务、社会媒体、广告策略等众多领域。面对推荐场景中日渐丰富的多模态信息,传统推荐方法无法有效挖掘用户深层次的偏好特征,很大程度上不能满足用户个性化推送的需求。近些年,研究者们将用户评分、评论、浏览等数据进行特
学位
近年来,Web of Science、Google Scholar等文献数据库不断更新完善,为研究者们提供了丰富的文献参考。文献量大、研究因素复杂成为了许多研究领域的一个特点。研究者在研究初期需要快速准确地对大量文献内容进行梳理与科研统计,了解研究领域的发展趋势和方向,以开展新研究。其中,研究两代人社会地位变化的“代际流动”(Intergenerational mobility)领域,文献量日益增
学位
在我国大力推行建设数字强国的背景下,将计算机技术与金融知识相结合,分析处理海量数据并从中提取规律,从而构建量化交易策略,已经成为许多投资者普遍选择的投资方式。在人们的物质生活得到了极大提升之后,越来越多的人参与到股票投资之中,程序化的股价研究既能规避投资者因情绪变动而出现的主观误判,又能在庞大的数据中挖掘出人力无法发现的隐藏规律,因而被众多专家学者所关注。投资者希望能够制定出一种智能化交易策略,从
学位
在互联网时代,类似今日头条这样的在线新闻分发平台吸引了数以亿计的用户。由于在线新闻服务的便捷性和时效性,许多用户的新闻阅读习惯已经从传统报纸转向数字新闻内容。那么在信息爆炸时代,平台如何为用户过滤筛选出用户有阅读欲望的新闻成了新闻推荐领域研究的重点任务。协同过滤算法和神经网络模型是新闻推荐领域研究的两大重要方向。然而,现有的很多方法大都忽略了新闻隐式信息是新闻的重要组成部分,对新闻表示的完整性和准
学位
大规模在线开放课程(MOOC,慕课)这一概念自2008年被提出,2012年开始在世界范围内兴起。慕课的诞生旨在为每一位学习者提供平等且高质量的学习资源,特别是在新冠疫情的大背景之下,慕课更是凭借其先天的优势成为了世界各国大力推广的教育方式。但是慕课由于缺乏强约束性,其高退课率以及低通过率也广为学界所关注。越来越多的研究者开始着手研究如何提升慕课的留存率以及通过率,其中,针对慕课平台学习者群体中那些
学位
随着信息爆炸时代到来,越来越多的人难以在短时间内找到自己需要的资源。尤其是在蓬勃发展的科学研究领域,论文数量呈指数级增长,这给快速获取与自己研究领域密切相关的论文带了巨大的困难。通常,在研究生教育期间,为了更好的梳理自己研究方向的发展脉络,研究生要花费大量的时间和精力寻找论文。因此,个性化的论文推荐方法被研究生们所期待。近年来,随着社交网络的快速发展,基于社会关系规则和网络理论的推荐方法在一定程度
学位
网络技术飞速发展的今天,数据成为创新和增长的重要驱动力,它可以帮助企业了解和改进业务流程,从而制定适当的发展战略,此类数据很多以某种固定结构存储在关系型数据库中,用户通常需要通过相关系统的交互界面完成数据检索,而自然语言作为人类最常使用的表达方式,具有简单、易用的优点。在此背景下,通过自然语言完成对结构化数据的检索,不仅为用户提供了一种新颖便捷的检索方式,还能提升数据的查询效率。自然语言理解NLU
学位
在当前信息技术高速发展的情形下,各行业领域都产生了海量的数据,而这些数据往往都是存储在结构化或半结构化的数据库中。对于关系型数据库中数据的获取需要使用SQL语句来执行查询操作,但是这些编程语句的使用增加了非技术人员分析和使用数据的难度,开发技术人员也无法将所有可能用到的查询语句封装成接口供非技术人员使用。因此为了快速便捷地从数据库中准确获取数据信息,自然语言处理领域的研究人员尝试使用深度学习模型来
学位
随着中国证券市场的快速发展,证券市场日益复杂,传统基于基本面分析的方法在股市中获利越来越困难。伴随着计算机的软硬件快速发展,基于数学和计算机的量化交易逐渐走进了人们的视野。量化选股和量化择时是量化交易两个比较重要的方向,量化选股有很多种实现方式,其中使用较多的是多因子选股,但是近年来的多因子选股论文都把因子与股票未来收益之间的关系看作是相同的,而现实中因子与不同类别股票未来收益的关系不一样。所以基
学位