论文部分内容阅读
随着大数据时代的来临,5G通讯等新型传播技术,以及在线社交平台等信息传播形式不断发展,导致信息的传播速度以及规模出现爆炸式增长。然而海量网络信息在与人便利的同时,其中所隐藏的虚假信息也给人们生活乃至国家信息安全带来困扰。因此,对于网络信息可信评估的研究有着十分重要的现实意义。在大数据网络环境下,信息数据呈现出多源异质、有效信息密度低等特征,使得人们难以有效的对信息数据进行有效的收集利用。以往的信息可信评估方法无法对大规模数据进行高效挖掘,且需要大量的人力和时间成本,因而研究如何有效利用信息数据是解决网络信息可信评估的关键。为解决以上问题,本文针对大数据环境下网络信息的可信评估方法进行研究,主要的研究内容如下:(1)针对大数据网络环境下,信息数据呈现出的体量大、结构各异的特点,为数据的有效收集利用提出较高要求。本文结合知识图谱这一新型数据结构,利用结构化和非结构化数据的不同表征,对信息数据所包含的实体和关系进行抽取,并以三元组的形式加以存储,进而方便整合挖掘实体间复杂关联关系。针对基于模板的关系抽取方法受限于模板覆盖度问题,基于深度学习算法进行有监督的关系抽取,得到具有复杂关系的知识图谱。(2)针对网络环境中有效信息密度低的特征,本文提出一种基于知识表示学习的信息可信评估方法。将信息实体与实体间关联关系映射至向量空间中,基于向量的平移不变性和信息三元组满足向量三角形法则的假设进行建模。考虑到传统知识表示学习处理复杂关系能力较弱,且对超参数依赖性较强,模型采用基于实体分类的负采样方法,减少受损三元组的随机性和非负性。同时通过超参数的自适应调节机制,通过对损失函数的监测,在参数更新前期采用较大学习率使模型快速收敛,而后减小参数使模型收敛精确。在大型真实知识库上的性能表明,预测结果的平均排名提高约4%,预测结果处于前十的准确率提高了 10%以上。(3)针对传统翻译嵌入模型仅参考直接关系的局限性,模型通过基于神经网络的单路径聚合算法和基于邻居的多路径聚合算法,对实体间的直接关系与间接关系进行综合考量。利用长短期记忆人工神经网络在处理存在语义依赖的序列上的优越性,且能在一定程度上减轻循环神经网络在处理长序列中可能存在的梯度消失问题,更好的表示实体间的语义关系。(4)针对企业用户和普通用户对于自动化信息可信评估的市场需求和业务功能需求,本课题设计实现了一个网络信息的自动化可信评估系统。系统可分为知识图谱构建模块,信息可信评估模块,评估结果可视化模块,以网络中的结构化信息和非结构化文本信息作为目标利用爬虫技术进行收集,以三元组的形式进行存储,基于知识表示学习算法和人工神经网络构建能量模型,通过自适应机制更新参数,同时提供可视化界面向用户分别展示待评估关系结果及系统预测结果。该系统不仅可以应用于信息可信评估方面,在知识补全、数据库清洗等领域也可进行应用。