论文部分内容阅读
纵观Web2.0世界,用户原创内容(UGC, user-generated content)吸引了众多数据挖掘领域学者的目光,获取、跟踪并最大化利用这些用户原创内容也逐渐变成企业相关部门的一项任务。随着互联网技术的普及,与过去的十几年相比,对投放的产品和服务获取市场反馈越来越容易,越来越多的企业通过在线评论,获取市场反馈情报。因此,在线评论不仅是消费者购买决策的重要依据,同时也为企业所用,辅助与支持决策。进而如何提高UGC的投资回报率,使得工作更有效率,是每个企业关注的。汽车作为一种高价、不常购买的商品,比较而言消费者会倾向于把更真实的感观发布到网上,因而高效的识别出消费者对汽车的评论情感倾向并提炼出关键性的问题,对汽车企业有很大的应用意义。本文旨在探究情感分类模型在汽车领域在线评论的效果,找出适合汽车在线评论的情感分类方法,编写汽车评论情感挖掘系统。首先,论文对国内外文本情感分类模型的研究现状做了系统性地总结,并归纳出三个主要的文本情感分类算法,朴素贝叶斯(Na ve Bayes)、支持向量机(SVM)、决策树C4.5(J48);本文为研究这三种算法对汽车评论情感分类的优劣,在论文实验部分抓取两个来源的汽车在线评论数据,将大量数据规范化预处理,导入情感分类模型,对三个算法的分类性能进行比较,最后利用调试出的最优模型对测试样本进行分类,编写汽车评论情感挖掘系统。本研究可以高效地从海量评论中获得民众对于某一产品或服务的某些特征的正负面评价。在技术导向上,本文在基于机器语言的中文文本情感分类研究上做出定量分析,为汽车评论的情感识别建立汽车领域情感词典;行为导向上,本研究对汽车行业在线评论情感分析进行了深入的探讨,有很好的实践应用价值,为后续企业构建市场数据挖掘系统提供了一个开发的方向。