基于长短期记忆网络及深层特征的谣言识别系统

来源 :河北大学 | 被引量 : 2次 | 上传用户：daifei147

【摘要】

：

【作者】

：

王星宇

【出处】

：

河北大学

【发表日期】

：

2020年01期

【关键词】

：

谣言识别谣言文体 H-LSTM 评论两极化用户领域画像

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

微博是当今信息传播的重要途径,实现了信息即时的共享、传播和互动,但也不时有谣言出现。古语云“流言猛于虎”,所以对微博中流传的谣言进行识别和清理,对整个社会的安全和稳定都有着重大意义。本文针对微博中的谣言识别问题,提出了一种新的谣言识别模型,该模型利用了三个深层特征:谣言文体符合程度、谣言评论两极化、用户领域画像匹配度,在谣言识别问题上取得了良好效果。本文的主要工作包括以下4点:1.基于长短期记忆网络(Long Short-Term Memory,LSTM),改进了其内部结构,在原本三个门结构的基础上,加入了第四个门结构:History门(历史门)。将新模型命名为历史门长短期记忆网络(Historical-Gate Long Short-Term Memory,H-LSTM)。该模型利用自注意力机制更新History门信息,历史门能够存储历史信息,使得模型能够更好的捕捉较长输入序列的上下文信息。并在微博谣言数据上分别利用了GRU,LSTM,H-LSTM三种算法进行实验,实验表明利用H-LSTM对微博谣言数据的谣言文体符合度识别上,相较于GRU与LSTM,结果收敛所需的迭代次数分别减少了约800步和400步,精度分别提高了4.32和2.17个百分点。2.分别利用两个已有模型构造出两个深层特征。利用Doc2vec模型计算微博用户最新微博内容的句向量d,以及计算该用户所有历史微博内容的句向量m,将m视为用户领域画像,利用向量距离公式,计算向量d和m的距离s,s则为该用户最新微博的用户领域画像匹配度,s的大小决定了该用户最新微博内容是否为其经常关注的内容或擅长的领域;利用Snownlp情感分析库,对每条微博下的评论进行情感分析,分别统计情感处于两极的评论数,计算评论情感两极分化程度。3.利用单因素方差分析,对得到的三个深层特征进行计算,判断其是否对于谣言识别具有显著性作用,结果表明,三个深层特征的P-value值均小于0.01,说明三个深层特征对于谣言与非谣言两类数据差异性显著,验证了特征的有效性。实验数据集还包含五个浅层特征,分别为粉丝数、微博数、转发量、关注数和性别。利用梯度下降树对三个深层特征和五个浅层特征进行特征选择,计算特征的重要程度,结果表明八个特征中,三个深层特征的重要程度排在前三,证明了深层特征对于谣言识别的重要性。4.将得到的三个深层特征作为特征集,运用SVM构造了复合的谣言识别模型,实现了对微博中谣言的识别。实验数据集中共包含谣言1538条和非谣言1849条。实验表明,本文的方法对于微博中的谣言识别具有较好效果,识别准确率达到了98.53%,F1值达到98.39%,高于目前关于谣言识别文献的准确率与F1值。

其他文献

漫话药膳

<正> 在中国,用药膳——一种以食物和药物为原料的膳食来强身祛病的历史已经很久远了。早在3000年前,周代朝廷医事机构中共设4科,其中就有食医。中国古代研究食补的著作有300

期刊

施食中国中华人民共和国食物

控制网络系统中ControlNet的分析与应用

阐述了罗克韦尔自动化提出的三层网络中控制层的特征,对其独特的隐性令牌传递协议进行论述与分析.其特有的生产者/消费者网络模型,将会使其在自动化网络体系中得到广泛的应用

期刊

控制网络现场总线令牌总线ControlNetfieldbus token-passing bus

拓展重庆万盛国家地质公园的价值

　　1对重庆万盛国家地质公园价值的认识(1)地质科学价值重庆万盛国家地质公园是以中奥陶统龟裂灰岩构成的石林地貌景观、峡谷地貌和水体景观组合的地质公园.古生物化石主要

会议