论文部分内容阅读
微博是当今信息传播的重要途径,实现了信息即时的共享、传播和互动,但也不时有谣言出现。古语云“流言猛于虎”,所以对微博中流传的谣言进行识别和清理,对整个社会的安全和稳定都有着重大意义。本文针对微博中的谣言识别问题,提出了一种新的谣言识别模型,该模型利用了三个深层特征:谣言文体符合程度、谣言评论两极化、用户领域画像匹配度,在谣言识别问题上取得了良好效果。本文的主要工作包括以下4点:1.基于长短期记忆网络(Long Short-Term Memory,LSTM),改进了其内部结构,在原本三个门结构的基础上,加入了第四个门结构:History门(历史门)。将新模型命名为历史门长短期记忆网络(Historical-Gate Long Short-Term Memory,H-LSTM)。该模型利用自注意力机制更新History门信息,历史门能够存储历史信息,使得模型能够更好的捕捉较长输入序列的上下文信息。并在微博谣言数据上分别利用了GRU,LSTM,H-LSTM三种算法进行实验,实验表明利用H-LSTM对微博谣言数据的谣言文体符合度识别上,相较于GRU与LSTM,结果收敛所需的迭代次数分别减少了约800步和400步,精度分别提高了4.32和2.17个百分点。2.分别利用两个已有模型构造出两个深层特征。利用Doc2vec模型计算微博用户最新微博内容的句向量d,以及计算该用户所有历史微博内容的句向量m,将m视为用户领域画像,利用向量距离公式,计算向量d和m的距离s,s则为该用户最新微博的用户领域画像匹配度,s的大小决定了该用户最新微博内容是否为其经常关注的内容或擅长的领域;利用Snownlp情感分析库,对每条微博下的评论进行情感分析,分别统计情感处于两极的评论数,计算评论情感两极分化程度。3.利用单因素方差分析,对得到的三个深层特征进行计算,判断其是否对于谣言识别具有显著性作用,结果表明,三个深层特征的P-value值均小于0.01,说明三个深层特征对于谣言与非谣言两类数据差异性显著,验证了特征的有效性。实验数据集还包含五个浅层特征,分别为粉丝数、微博数、转发量、关注数和性别。利用梯度下降树对三个深层特征和五个浅层特征进行特征选择,计算特征的重要程度,结果表明八个特征中,三个深层特征的重要程度排在前三,证明了深层特征对于谣言识别的重要性。4.将得到的三个深层特征作为特征集,运用SVM构造了复合的谣言识别模型,实现了对微博中谣言的识别。实验数据集中共包含谣言1538条和非谣言1849条。实验表明,本文的方法对于微博中的谣言识别具有较好效果,识别准确率达到了98.53%,F1值达到98.39%,高于目前关于谣言识别文献的准确率与F1值。