论文部分内容阅读
对具有字数少、噪声多、特征稀疏等特点的中文产品评论数据建立了一种基于机器学习的情感分类模型,旨在提高情感倾向性判别的综合评价指标F值。结合知网(HowNet)情感词典提出了一种通过增加情感词比重的C-TF-IDF权重计算方法,弥补了词频-逆向文档频率IF-IDF仅依靠词频来衡量特征项权重的缺点。先对一步三分法和二步二分法的情感分类策略进行了实验对比分析;然后选取了一步三分法对不同特征提取数量下的情感分类效果进行了研究。实验结果表明,C-TF-IDF比TF-IDF更适合于中文产品评论数据的情感分类任务,F值