基于贝叶斯方法的缺失数据补全研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xfcll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展和人们获得数据途径的多样化,企业积累的数据飞速激增。由于这些数据里面隐含着很多有用的信息,可以通过数据挖掘来进一步的分析和充分的利用。但是很多的研究方法和模型都是基于理想的而非现实的数据集。各种原因导致了我们收集的数据存在很多质量问题,其中较为棘手的为数据缺失的问题。目前国内外的缺失数据的补全方法主要有以下几种:删除法、常量补全法、统计学补全法、简单值补全法和复杂估算值补全法。其中复杂值补全法因其最大程度上利用了当前已知数据,帮助预测缺失数据,从而获得了较好的补全精度。本文着重研究了复杂值补全法中广泛应用的朴素贝叶斯补全缺失数据的方法。但是朴素贝叶斯方法因对数据属性间做了独立假设,摈弃了数据属性间的关联性,导致了预测值不准确,形成了误差。本文针对朴素贝叶斯方法在数据补全方面固有的缺点,对其进行了改进,提出了含有修正因子的双尺度贝叶斯公式,并从理论上分析了双尺度贝叶斯公式可以很好的适应一般属性间的三种关联形式。双尺度贝叶斯算法主要针对分类数据,利用缺失属性值的后验概率和修正因子对缺失数据进行预测,然后使用最大概率填充MaxPost和概率分布填充PropPost进行具体的数据补全。最后本文选用了UCI的4个不同领域不同大小的实验数据集,进行了实验验证。实验通过三个评价指标验证了本文提出的双尺度贝叶斯补全方法比朴素贝叶斯补全方法更加准确和有效。
其他文献
无线传感器网络是由大量具有信息采集、数据处理和传输功能的,集成有数据采集单元、数据处理单元、数据通信单元和能量供应单元的微型传感器节点自组织形成的无线分布式网络系
在流媒体系统中,媒体资源的有效传输是其关键问题之一,而以C/S模式、组播模式以及内容分发网络模式为基础的流媒体系统,都存在着缺陷。目前,P2P技术是能够处理流媒体传输问题
近几十年来,随着计算机技术和图像处理技术的日益发展,运动视频中的目标检测已经广泛运用到国防与国民经济建设的诸多领域。而随着其应用领域的不断扩大,人们对视频序列中运
随着网格计算、P2P计算、普适计算、云计算、Ad Hoc等大规模分布式应用系统的深入研究,互联网已经转变为一种开放式网络环境。传统的集中式访问控制模型已经无法满足开放网络
近年来,随着信息技术的飞速发展,嵌入式产品被广泛运用到人们的日常生活中,嵌入式实时操作系统(RTOS)亦随之逐渐渗透到学术界、工业界等领域。RTOS是对外部事件响应经过优化的操
计算机网络最初设计的目标,只是实现单纯的端到端数据传送,发展至今的互联网,几乎所有的流量都是建立在TCP/IP架构之上,尽管设备性能有了飞跃性的提高,但网络本身的架构却没
21世纪是网络经济的时代,伴随着互联网的迅速发展,internet上的信息量在不断增加,然而如何从浩瀚的信息海洋中得到所需要的信息就显得更加有意义。在信息检索中,搜索引擎使用
社团划分在生物、医疗等方面有着举足轻重的作用,但是随着数据规模的扩大,经典的串行算法已经不能满足人们的需要,为了能够适应大规模数据的发展和信息化时代的到来,社团划分算法
随着城市中交通堵塞情况的越来越严重,出行者对简洁、高效的路径规划算法的要求日益迫切。如何根据现实的道路交通状况构建合理而有效的路网模型,并在路网模型的基础上设计出
外观设计专利是以图像作为专利保护主要对象,利用传统的基于文本关键字检索方式并不能达到好的检索效果。利用基于图像内容的检索技术可以更好地完成相关检索需求。由于外观专