基于交替学习的不完整数据建模与缺失值填补

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:a724494702a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,我们可以通过数据挖掘技术从海量的数据中获取隐藏在数据背后的信息,从而为决策提供正确的指导。然而在现实生活的各个领域中,数据缺失是一个几乎无法避免的问题。高质量的数据是高质量数据分析的前提,因此如何有效的填补缺失值已经成为近年来的一个研究热点。作为一种较为流行的填补方法,回归填补法首先对不完整数据建立回归模型,然后基于所建的回归模型来预测缺失值。然而传统的回归填补法用一个线性回归方程对所有的数据进行拟合,并没有考虑到属性之间可能存在两种或两种以上的回归关系。而且,针对模型输入数据不完整的问题,传统的做法是删除不完整样本或将缺失值进行预填补。剔除不完整样本会丢失相当多的有用信息,而缺失值的预填补使得预填值的质量对模型精度和填补性能有着直接的影响。为此,本文提出一种基于Takagi-Sugeno(TS)模糊模型的不完整数据建模方法来填补缺失值。该方法首先对输入空间进行模糊划分,并对每个模糊子集建立一个特定的线性回归模型,然后采用局部线性模型的加权和来构建全局模型,从而在传统回归建模的基础上提升模型的精细度。而且,对每个模糊子集使用逐步回归算法进行显著特征的选择以进一步提高模型的精细度。针对模型输入的不完整性,本文将缺失值视为变量,并提出一种让输入特征的选择、模型的参数和缺失值的填补三者交替学习的模型求解策略,在建模完成的同时填补也伴随式的完成。本文使用了10个真实的数据集和1个人工数据集进行实验,实验结果表明了模糊划分、特征选择和交替学习三者都能提高所建不完整数据模型的精细度,进而提升填补精度。最后,将所提方法应用于中国家庭跟踪调查2016数据集的填补。
其他文献
大规模多输入-多输出(Massive Multiple-Input Multiple-Output,Massive MIMO)系统通过在发射机侧布设由大量天线构成的大型天线阵列来同时服务多位用户。大型天线阵列能够通
二维区域内离散点集的布局以及二维平面贴面纹理生成,是平面布局和计算机图形学领域的重要课题。本文基于Power图在布局剖分方面的优良特性,将其推广到两个具体应用中,一是面
我国高速铁路正从自主创新期(2004-2008年)转向全面自主创新期(2012年至今),其中智能化、网联化、协同化、综合化已成公共交通发展的共同目标。面对这一目标,大力发展基于高速列车运行安全的基础理论以及关键技术研究,为我国建成现代化信息化高速铁路提供理论支持和技术保障,同时对于最大程度降低列车安全事故发生率,具有十分重要的意义。文章针对高速列车轮轨之间的粘着环境以及列车控制运行过程进行如下研究
当前我国保险法理论和实务界一直对网络投保模式中保险人如何履行说明义务存在不同的观点,互联网保险业务在发展与创新的同时给保险人说明义务的履行带来了新的问题和争议。
工作于200-280 nm波段的日盲深紫外光探测器在包括导弹预警、空间通讯、火焰探测、远程控制以及化学和生物分析等许多军事和民用领域具有重要应用,受到人们日益广泛的关注。
李稻葵;女士们,先生们,大家早上好!欢迎大家参加"一带一路"国际智库峰会。这个峰会是清华大学中国与世界经济研究中心,与重建布雷顿森林体系委员会,联合中国银行一起举办的,
会议
近年来,随着人工智能技术的发展,以及5G技术的大规模商用化,物联网行业得到了飞速发展,我国的物联网发展水平也处于世界领先水平。然而物联网市场的信息安全隐患也随着市场的
利用无线信道的特性、采用物理层技术实现信息安全传输的物理层安全是保密通信的一种方式。时间反转传输特有的时空聚焦特性使其具有天然的抗干扰和抗窃听能力,即使在单发射
可逆冷带轧机具有结构简单、投资少、运行成本低等特点,适用于不同带钢产品规格的小批量生产。在实际轧制生产过程中,可逆冷带轧机的主轧机、左右卷取机和电液伺服系统通过带钢挠性连接,所构成的冷带轧机速度张力及压下系统具有多变量、非线性、强耦合、不确定和慢时变等特征,并且连同主传动最大加减速、轧制过程重载荷强干扰等约束条件给轧机系统的分析与控制提出了新的挑战。本文聚焦于研究可逆冷带轧机速度张力及压下系统的反
电致发光在现代科技和日常生活中有着重要应用,发光材料主要分为有机发光材料和无机发光材料。可以采用溶液工艺制备的发光材料无需高昂的生产设备和复杂的工艺,可以大大节约