论文部分内容阅读
大数据时代,人们所接触的数据在数量与维度上与日俱增,网络上有着丰富的量化数据和文本数据,相对于量化数据,文本数据具有比重大,复杂,新颖等特点。其中文本情感分析在大数据时代这个背景下不断地发展并吸引着大量研究者的关注,如何充分有效地利用文本数据,挖掘其中所包含的信息是一个巨大又有意义的挑战。文本分析是指对文本的表示及其特征项的选取;文本分析即让计算机能够对于人类文字进行理解和分析,它要从文本数据中抽取出文本所包含的特征与信息。本文着重探究的对象是文本情感的有序分类,利用神经网络语言模型word2vec将文本数据量化,再通过成对比较有序分类算法将量化数据做情感分类,完成文本情感分析。首先为了更好地利用计算机来分析文本数据,本文利用神经网络语言模型word2vec来对文本数据进行量化,相对于其他的方法具有模型简单、效率高、易调参的优点,并且在此基础上本文结合了其他的特征提取方法,如:TF-IDF,LDA4主题模型,再加以优化得到词向量,此综合法在数值实验上取得了更好的效果。另一方面,本文研究的是有序分类问题,提出了成对比较策略的有序分类算法(PairCode),详细介绍了如何使用成对比较将有序分类转化成无序分类,再将无序分类结果转化成有序分类类别,给出了成对比较下类标签编码矩阵设计、样本均衡、分类器训练、新样本预测等环节中的可行策略。并在数值实验中与其他有序分类算法比较,PairCode算法在MAE、MMAE等有序度量指标上有较好的表现,然而,由于PairCode算法本身策略的特点,其分类速度是较慢的,在后续研究中需要不断改进。