基于贝叶斯网的不确定性数据清洗

来源 :云南大学 | 被引量 : 0次 | 上传用户:one_tester
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,信息数据急剧增长。由于原始数据本身不准确或是采用了粗粒度的数据集合,产生了大量的不确定性数据(Uncertain data),这些数据普遍存在于经济、军事、物流、金融、电信和科学计算等领域中。在不确定性关系数据库中,传统的关系数据库处理方法已经不能完全满足不确定性数据的处理需要。而数据清洗作为提高数据质量,完善数据查询结果的重要技术途径,受到越来越多的关注和重视。在元组带有概率维的不确定性数据库中进行SPJ查询(Select, Project, Join Query)的过程中,查询输出带有的概率维是为用户决策提供的一个重要参考和依据。本文针对不确定性数据库中SPJ查询的实时性和准确性,着眼于查询结果元组概率值的计算,以贝叶斯网(BN Bayesian Network)这一重要的不确定性知识表示及推理工具,结合不确定性数据库查询计划的具体特点,研究不确定性数据库中SPJ查询过程的数据清洗问题。本文的主要工作可概括如下:·基于不确定性查询计划的贝叶斯网构建。本文将从不确定性查询计划的特点入手,采用图遍历思想,构建贝叶斯网的有向无环图(DAG, Directed Acyclic Graph)结构,进而根据查询计划中元组的因果依赖关系给出DAG中各结点的条件概率参数(CPT, Conditional Probability Table),从而完成带有查询因果依赖关系的查询贝叶斯网(QBN Query BN)的构建,作为后续概率值清洗的基础。·概率推理是QBN构建的直接目的。为了实现实时正确的查询结果输出,本文结合SPJ查询的具体特点,采用吉布斯采样(Gibbs Sampling)的思想,提出了QBN的近似推理算法,由此计算查询输出结果中元组的概率值,为用户提供一个尽可能正确的答案和参考依据。·基于QBN推理计算出的概率值,本文将定义一个查询结果元组概率值与QBN推理计算概率值的比较方法,从而完成对元组概率维的数据清洗目的。·本文将通过实验,实现提出的QBN构建、推理及相应的概率值清洗方法,并对构建QBN的效率、推理算法的收敛性、以及数据清洗的准确率进行了实验测试,实验结果表明,本文提出的方法可行,比较高效。
其他文献
随着教育改革的深入开展和现代教育技术的飞速发展,以远程教育为主要实现手段的开放教育将先进的信息技术融合进了教辅和学习过程的各个环节。利用信息技术来促进教育教学技
RSA算法是被研究得最广泛的公钥算法,在三十多年的发展历史当中,经历过各种攻击的考验,表现出优越的性能,逐渐为人们所接受,被认为是目前最优秀的公钥算法之一,并且已经被广