论文部分内容阅读
手机作为现代人们生活的必需品,有着五花八门的品牌以及很多不同的款式。对于用户来说,由于买方与卖方的信息不对称性,在网络上进行各种手机品牌的选择是一件很烦恼的事,所以需要依据具体的研究结论来帮助他们做出抉择。随着自然语言处理技术的发展,文本分析已经成为一大热门区域,而其中,情感分析又是文本领域研究的前沿方向。现在,文本分析在英文研究领域的相关研究已经比较成熟,而在中文领域研究,由于中文语言的复杂,对中文文本的情感分析还没有达到一定的程度。首先,现在对于句子和篇章级别的文本情感分析工作还远远不够,需要继续加以研究。其次,对于大规模数据集的情感分类的任务,必须继续发掘更优良的文本情感分类机器算法。最后,文本的情感分析现更多集中在微博、新闻、影评、酒店评论等等,所以迫切需要扩大研究领域,挖掘出更多有实际价值和社会效益的研究结论。本文从京东商城和淘宝网搜集了5款热门手机的相关评论,首先对评论集进行预处理和doc2vec向量化,然后通过梯度提升决策树算法进行情感分类,取得接近了81.79%的良好分类准确率。接着,将这种分类模型与逻辑回归、随机森林两种分类算法进行比较,发现GBDT的分类AUC值要比LR高约0.11,比RF高约0.03,且GBDT的FPR值要比LR和RF的FPR低接近20个百分比,分类所用时长也短于其它两个模型,从而验证了doc2vec+GBDT分类模型的优良性能。最后,通过参数调优,使得doc2vec+GBDT分类模型的准确率提升1.5%,AUC值也提升了0.03,并将此模型用于5款热门手机评论的情感分类,且进一步分析了不同品牌手机的用户属性偏好。本文研究的结论,即可以帮助手机厂商了解客户需求、从而改进自身产品,同时也可以根据顾客需求,帮助他们选到心仪的商品。