基于酒店在线评论文本的情感分类研究

来源 :北京建筑大学 | 被引量 : 0次 | 上传用户:lifen11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,自然语言处理仍然是一个突出的研究方向,情感分析则是其中基础的研究课题。情感分类是情感分析的一个重要分支,它可以根据文本所传达的意义,将文本划分为积极情感、消极情感等多种情感倾向。本文以酒店中文评论为研究对象,通过构建情感分类模型,解决爬取数据分布不平衡的问题,解决中文文本情感分类不准确的问题。最后采用可视化方法展现酒店数据的特征,为酒店升级改造提供针对性建议。本文的主要研究内容如下:首先,针对网络爬取数据分布不平衡的问题,本文采用Sim BERT建立不平衡数据的分类模型。利用Sim BERT模型对少数类样本的特征进行学习,生成类似于少数类样本的数据,再与原始样本进行混合,形成平衡数据集,提高了分类识别能力。结果表明,与其它不平衡分类模型相比,本文提出的模型具有更好的性能。其次,针对现有预训练模型没有充分考虑中文文本特征,导致情感分类性能较差的问题,提出基于Chinese BERT词嵌入的情感分类模型。该模型可充分考虑中文文本所特有的字形和拼音信息,通过Chinese BERT将汉字的字形和拼音信息融合到预训练模型中,然后连接双向门控循环单元对数据进行情感分类。结果表明,本文提出模型相对于传统模型取得了更高的分类性能,F1值达到了最高的92.73%,分类性能优秀。最后,针对不同类型的酒店评论做出可视化分析,为决策者提出针对性建议,提升酒店满意度。通过构建LDA主题模型,对经济型酒店和高档型酒店数据做出主题分析。之后采用语义网络分析构建两类酒店评论的网络关系图,展示主题词之间的关系。结果表明,经济型酒店的消费者更加重视酒店的位置、服务、隔音、卫生、价格和设施方面。高档型酒店的消费者更加重视酒店的服务、餐饮、位置、设施、价格和卫生方面。根据消费者对两类酒店的关注主题,提出针对性建议,从而提升酒店整体满意度。
其他文献
在现代工业生产中,统计过程的控制主要是为了改进和保障产品的质量,其中过程能力指数是统计过程控制中的主要工具,可用来衡量工厂的生产过程是否达到了预期的水平。当前广泛使用的过程能力指数均需满足正态分布,然而,在实际生产中,多数加工过程并不是简单地服从正态分布,而是呈现非正态的形式,因此研究非正态分布下的过程能力指数具有很重要的现实意义。本文在前人研究的基础上,主要探讨生产过程服从逆瑞利分布和对数逻辑分
学位
太阳能是一种可再生清洁能源,其可见光及红外波段具有巨大的能量可用来提供工业和居民用热。太阳能光热转化之间通过集热器作为转换媒介,传统集热器通过集热材料板吸收太阳辐射,这种间接式集热器在转换的过程中产生大量热损失。近年来一种新型直接式太阳能集热器研究广泛,主要利用微纳悬浮液较强的光学吸收特性和优异的热物性,与太阳光进行直接转换,能降低间接转换过程中热损失,进而提升集热效率。微纳悬浮液是指在传统工质中
学位
聚类分析作为数据挖掘领域的核心方法之一,在从海量数据中发现数据自然结构并获得有用信息方面起着非常重要的作用。目前一些聚类分析方法具有针对性,求解效率低,算法稳定性较差。弹性网络因其稳定的网络结构及坚实的理论基础,能够提高算法稳定性及算法效率,在求解组合优化问题上极具优势。弹性网络最初用于求解旅行商问题,求解时将整个系统类比为物理系统,以最小化能量函数的方式求解。本文调整优化了弹性网络的网络结构,并
学位
近年来,我国老龄化趋势愈演愈烈,数量庞大的老年人口和由此衍生的相关需求对我国养老体系提出了更高的要求。互助养老在部分城市已有试点实践,并根据当地的特点形成不同的运作模式,其中最具代表性的是“时间银行”模式,先后在上海、广州、南京等地推行,并取得了较好的成效。然而,互助养老在我国发展历史较短,推广普及程度较低,在实践中也暴露出一些问题与不足,亟待探索和解决。本文在理论分析基础上,对我国社区互助养老发
学位
岩石中含有大量裂纹,这些裂纹的相互作用对岩石的宏观力学性质有显著影响。本文提出了一个含有三个尺度裂纹的力学模型,以研究裂纹扩展模式和可能产生的破坏模式。为了模拟不同尺度等级裂纹之间的相互作用,将单个裂纹的卸载影响区域视为以裂纹尺寸为直径的球体。同时考虑了同等级和不同等级裂纹之间的相互作用和裂纹扩展导致的试件材料力学参数的退化。同时考虑了惯性的影响。采用数值计算的方法,联合求解了加载方程和裂纹扩展方
学位
土壤是生命的载体,但化工类企业在发展时不可避免的对土壤造成破坏,污染物的大量累积会严重危害各类生命体的安全,因此,对场地污染进行修复与治理刻不容缓。然而在对场地污染进行调查、评估和修复等工作时面临着诸多问题,例如,数据多源异构、无法快速从大规模的场地数据中提取污染特征和钻孔取样选点难等等。本文针对这些问题,提出使用Hadoop平台管理多源异构数据,运用并行式计算技术快速提取污染特征,构建基于Cat
学位
我国基础设施建设的发展日新月异,尤其是高速公路项目建设发展迅猛,与此同时,也应看到高速公路项目建设发展的质量有待提高。我国建筑行业属于劳动密集型产业,存在组织控制疏漏、生产效率、效益低等诸多问题,导致高速公路项目利润率普遍偏低。机遇和挑战是并存的,为此,我国高速公路项目建设者急需摆脱传统的成本核算思想和方法,提高企业的发展质量,增强企业核心竞争力。本文基于价值链的GH高速公路项目成本控制研究,意在
学位
邻苯二甲酸酯(Phthalic Acid Esters,PAEs)是目前市场中使用最广泛的一类增塑剂,由于其能够增加产品的柔韧性和延展性,因此被广泛用于各种消费品当中。PAEs具有一定的生理毒性,可以通过吸入、口入和皮肤接触等多个途径进入人体,危害人体健康。皮肤作为重要的暴露途径,相比吸入和口入暴露不需要中间步骤,可以经过皮肤直接进入人体血液中,因此受到越来越多的关注。衣物与皮肤接触最为密切,对皮
学位
有沿程入流的渗流问题[1]广泛存在于雨水渗排工程领域。例如,路边植草沟的纵向渗排就需要考虑沿程有入流的情况;各类渗渠以及透水路面等都可以抽象为有沿程入流的渗流问题。大孔颗粒[2]具有孔隙率大、渗透性强的特点,例如透水道路其面层颗粒度较大,因此其横向渗流不再满足Darcy定律[1]。同时,大孔颗粒渗流研究是一项基础研究,涉及采矿工程、石油工程、地下水工程等多个领域,对促进安全生产具有重要的理论和实践
学位
监控视频因其能够直接、准确地反应真实场景的动态信息而受到众多学者青睐。近年来,随着三维建模、图像传输、深度学习等技术的不断发展,人们对于监控视频的观看方式和观看效率也提出了更高的要求。监控视频数据“具有”浏览耗时长,回看查证过往记录效率低;视频影像之间相互独立、无组织性,无法与监控区域周围的地理空间信息相对应的问题,已然成为学者们研究的热点。本文旨在从时间和空间两个维度实现视频监控系统的高效查看与
学位