基于贝叶斯网络的大数据因果关系挖掘

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:joyancy_baby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2010年,全球的数据量跨入了ZB时代,根据IDC预测,至2020年全球将拥有超过35ZB的数据量,海量数据将直接或者间接的影响我们的日常工作、生活,乃至国家经济以及社会的发展[1]。大数据时代已经到来。随着大数据的快速发展,以概率统计为基础的机器学习在近年来受到工业界和学术界的极大关注,并在互联网、金融、自然语言、生物等领域获得很多重要的应用,其中贝叶斯网络在过去多年也得到了快速发展,并且成为非常重要的一类机器学习方法[2]。贝叶斯网络是描述随机变量之间因果关系图的模型,是概率理论、因果推理与图形理论的结合,也是传统的基于数据的统计方法和强调知识的人工智能方法的统一[3],其重要应用之一是随机变量之间的因果知识表示和推理。贝叶斯网络由结构和参数两部分构成,分别用于定性与定量描述变量之间的因果关系,它具有多功能性、有效性和开放性等特征,能够有效的将数据转化成知识,然后利用这些转化后的知识进行推理,来解决现实世界中的不确定性方面的问题,其有效性已在金融风险分析、信息安全、DNA分析、软件智能化、医疗诊断、系统分析和控制等许多领域得到验证。目前,对于非时序的常规数据,通常采用贝叶斯网络来挖掘其中的因果关系;而时序的常规的单时间序列一般采用格兰杰方法来挖掘其中特定的因果关系[4],但是这种方法存在诸多问题。随着大数据时代的来临,大数据技术为我们分析问题和解决问题提供了新的思路和方法。与常规数据集相比,在大数据环境下进行数据挖掘将得到更多更全面的信息。未来从大数据中发现因果关系以及在常规数据中挖掘一般因果关系将是一种趋势。为了改善传统格兰杰模型在时间序列因果关系挖掘中出现的弊端,改进并完善因果关系挖掘模型,本文提出了在大数据环境下使用二阶贝叶斯网络模型进行因果关系挖掘。该模型采用最小描述长度(Minimum Description Length,MDL)[5]原理来进行打分。通过对期货样本数据分析,并对原始时间序列进行离散化、属性约简、重构等处理后进行二阶贝叶斯网络模型训练,不仅可以挖掘节点与节点之间的因果关系而且可以发现因果关系之间的联系。本文的主要工作和主要研究成果如下:1.分析对比现有因果关系挖掘模型和贝叶斯网络结构学习方法,选择基于MDL打分原理的贝叶斯网络模型作为本文的研究方法;2.提出了一种新型的贝叶斯网络模型:二阶贝叶斯网络模型。设计出了新型模型构建的方法,并实现了相关算法。3.利用二阶贝叶斯网络推理模型对期货时间序列进行仿真实验,实验不仅得到了单个期货时间序列内部节点之间的因果关系,而且得到了多个时间序列边与边之间的因果关系。
其他文献
随着计算机技术的不断进步,万维网(WWW,World Wide Web)得到了很大的发展,遍布全球的大多数国家和地区。数据库是网络信息化服务的基础,Web技术和数据库技术相结合成为当前研究
图像拼接(Imgae Mosaic)技术是将一组存在重叠部分的图像序列进行空间匹配对准,经重采样融合后形成一幅包含各图像序列信息的宽视角场景的、完整的、高清晰的新图像的技术。
随着信息技术的高速发展,我们逐渐从信息匮乏的时代走向了信息过载的时代,从海量的信息中获取有用并且感兴趣的信息越来越困难。推荐系统作为克服信息过载的重要工具,受到工
随着科技和网络的快速发展,如今我们已经进入数据信息的时代,每天都会有大量的数据在各种社交平台或者新闻网站上产生,其中一般都是文本数据。如何才能从这些浩如烟海的文本
随着信息化的发展,公安系统内部建立了大量的应用系统,这些应用系统在开发语言、部署平台、通信协议、对外交互数据的格式上都存在着极大的不同。为了打破这种信息孤岛壁垒,实现
二维工程图数字水印技术的研究涉及密码学、图像处理、信息安全等多门学科,是数字水印领域中一个重要研究方向。本文重点研究了二维CAD工程图脆弱水印技术。首先,论文阐述了
实时模拟具有复杂边界的大规模流体场景具有极其重要的研究与应用价值。为了加速模拟具有较大规模的流体场景,并且能够实时地与复杂流体边界进行交互,本文提出了一套可在通用
人类社会是在信息交流的基础上建立的,因而通信对人类社会文明、进步与发展起着巨大的推动作用。在物联网产业快速发展的同时,无线传感网络也受到了更多的关注。低成本和低功
信息技术正从以计算设备为核心的计算时代和以交换机为中心的网络时代进入到以存储为核心的存储时代。面对大容量存储设备和存储系统,准确评测其应用级性能、可用性是待解决
语音识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,是语音信号处理的一个重要研究方向。作为一种生物识别技术,它具有广泛的应用前景,得