电商评论情感分析及销量预测方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:gongshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术迅猛发展,人们逐渐开始接受并热衷于网络购物,同时习惯于查看商品评论信息来决定是否购买。这些评论数据中不仅蕴含着用户的兴趣与偏好信息,还包含着商品信息。因此如何通过商品评论数据获取到有价值的信息成为一个亟待解决的问题。首先爬取亚马逊平台的手机评论信息,对爬取到的数据进行预处理,包括数据清洗以及缺失值处理等工作,之后对数据进行文本分词、词性标注以及去停用词等文本语言化处理工作。实验中进行名词过滤以及同义词合并的操作,缩小商品特征词的筛选范围,利用隐狄利克雷分配模型来获取商品特征信息,筛选出出现次数较多的特征词。然后通过将知网HowNet、台湾大学NTUSD、清华大学李军中文褒贬义词典以及一部分未标注来源的词典中的正负向情感词分开整合,同时加入知网词典中的副词,从而构成一个完整的情感词典。为了计算商品特征词情感极性值,需要为情感词典中的不同词赋予不同的权重。使用主成分分析算法对建模数据进行降维,保留数据中有用信息,去除噪声数据。将情感因子加入多元线性回归模型、支持向量机回归以及极端梯度提升算法对商品销量做预测。实验中销量是通过商品销量排名来体现,所以实验中具体是对销量排名进行预测。在使用多元线性回归模型进行预测时,预测结果出现了过拟合。使用支持向量机回归与极端梯度提升算法建模时,同时结合k折交叉验证的方法,最终得到的销量预测结果的准确度进一步提升,缓解了过拟合的情况。最后利用R语言做一个可视化的平台,因为R语言的可视化是非常好的,可以更加清晰美观地展示实验结果,主要是利用R语言的shiny制作。
其他文献
在市场经济蓬勃发展的今天,我国的中小企业已经占据国民经济的半壁江山,随着各家银行相互之间竞争激烈,为了寻求新的盈利点,改变了原来传统的授信模式,供应链金融业务由此而生。供应链金融业务是将一个行业供应链中的核心企业以及其相关的上下游企业看作为一个整体,以存货归属权和资金流需求为基础,根据供应链中不同行业的特点以及相关企业的情况制定一个适用于整体的融资方式。供应链金融区别传统金融只关注融资企业资产状况
摘 要:在传统的教学中学生的地位处于被动,主动性不强。在这种教学模式下对学生的创新意识的培养有很大的阻碍。新课标下有针对性的对传统教育进行改革,采用全新的教学方式。本文就从课堂教学中情景设计需要遵循的基本原则和如何进行恰当的情景设计进而引导并激发学生的探究式学习的欲望,以培养学生的学习兴趣,激发学生学习的主动性进行探究。  关键词:新课标;情景设计;探究  问题情境是指主体为达到某一活动目的所遇到
摘要:初中阶段的学生在身体和心理上都处于转型的关键时期,学生处在这个阶段家庭、学校、社会都会对其身心造成极大的影响。所以,在初中阶段通过学校的德育教育培养学生良好的行为习惯以及心理素质具有着重要意义。学校在对学生进行课堂教育时,不仅要传授文化知识以提高学生的文化水平,还要注重培养学生的道德意識,学校应当与学生的日常学习生活相结合从而对学生进行全面的道德教育。本文通过对我国初中德育教育的研究现状进行
2017年,我国冷库总容量突破1.23亿立方米,但我国冷库的能耗水平远高于发达国家。由于冷库中的低温高湿环境,结霜现象广泛存在于各类冷库中,结霜会增加冷库的能耗。如果减缓/抑制冷库中的结霜现象,无疑可以降低冷库能耗,为节能减排事业做出贡献。而传统除霜手段大多在霜层形成以后进行除霜,时间上有滞后性,结霜的不利影响已经产生。另一方面,传统除霜方法不仅需要冷库制冷机组停机,还有可能引起库温波动。有研究表