基于TS建模的不均衡不完整数据填补研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:goodyoujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技飞速发展的今天,各行各业都离不开数据的采集、记录、分析等操作,因此累积了相当庞大的数据量,而数据缺失是不可避免的问题。数据中的缺失值可能存在重要信息,从而会影响到数据挖掘结果的准确性,因此对不完整数据建模并对缺失值加以填补已经成为一项越来越重要的任务。回归填补通过分析数据集中的存在值和缺失值间的回归关系,对不完整数据建立回归模型从而完成填补,是一种常见的填补方法。但在不同的样本类别上属性间的回归关系通常是不同的,因此本文在TS模糊模型(Takagi-Sugeno Fuzzy model)的框架下,提出一种为不完整数据建立属性间精细回归模型的填补方法。在对不均衡数据集进行模糊建模的过程中通常会把多数类中的样本划分到少数类中。考虑到数据集中类不均衡的情况大量存在,该方法在TS前提参数辨识环节中提出一种基于局部距离的距离密度算法以获得不完整数据的划分,并在此基础上给出了一种样本隶属度的重构策略。为了进一步提高模型的精细度,在TS结论参数辨识环节中对每个模糊子集采用RRelief F算法来选择模型输入的相关特征。该方法针对建模过程中缺失值的存在导致模型输入不完整的问题,将缺失值视为变量,采用迭代学习的方式,动态学习缺失值、模型结构和结论参数,直至迭代收敛。伴随着属性回归建模的完成还可同时获得缺失值的填补结果。本文通过上述所提出方法对不均衡不完整数据建模,进而对缺失值进行填补。在UCI、KEEL数据集的实验结果表明,与传统的回归填补法相比,所提出方法不仅能够考虑到数据集中类不均衡的特性,同时能实现不完整数据中观测数据的充分利用,进而填补精度能够得到有效的提高。
其他文献
互联网基础设施的完善加速了信息数字化进程,现实生活中的可用信息不再被简单堆叠,而是被表征为图状信息网络,如交通网络、多媒体网络和社交网络等。网络数据的异质性、非线性和动态性等特点给数据挖掘任务带来了诸多挑战。网络表示学习是应对这些挑战的有效方法,它将高维稀疏的网络信息转换为低维密集的实值表示,从而提高网络分析任务的执行效率。现实系统中网络节点往往具有丰富的属性,这些属性可以为节点建立语义上的联系。
近些年来,深度强化学习在人工智能领域扮演着越来越重要的角色。但当面对高像素图像游戏的时候,深度强化学习的训练稳定性不佳。深度强化学习在Q学习训练过程中通常需要巨大的存储内存以及计算消耗,这阻碍了其在相对低端智能设备上正常运行。这仍是深度强化学习面临的一个严峻考验。针对深度强化学习算法应用在复杂图像游戏上所出现的问题,本文分析了该算法存在的不足之处,包括该算法在Q学习过程中出现过高估计Q值所带来的稳
深层卷积神经网络因其优秀的学习能力受到广泛关注。但深层卷积神经网络模型中通常具有大量冗余参数,这些冗余参数不仅会消耗大量内存和运算资源,阻碍模型向移动端的移植,还会带来过拟合问题。近年来,网络模型剪枝算法已经被证明可以有效减少模型参数,压缩网络规模。现有剪枝算法大多通过人工设计的评价标准来判断一个网络结构是否应该被剪枝。这种判定方法具有较强主观性,因此获得的评价结果可能存在较大误差。为解决此问题,
计算机断层扫描(CT)利用射线进行成像,并广泛应用于生物学、药学及安检等方面。在辅助治疗方面,CT凭借扫描速度快且成像清晰的优点帮助医生准确筛查病灶,大幅降低了癌症和恶性肿瘤的死亡率,但常规剂量CT的高辐射对患者伤害很大甚至致癌,而在此基础上降低辐射剂量的低剂量CT信噪比低,器官病灶纹理模糊,易造成医生的误诊和漏诊,因此低剂量CT图像需要经过算法进一步处理达到临床要求。本文从两个方面针对现有算法的
移动机器人以其灵活、形式多样的特点受到社会各界的关注,并在各领域内都得到了广泛的应用。对于智能移动机器人而言导航功能必不可少,而路径规划在导航系统中占据重要地位,它影响机器人整体导航的效果,很大程度上决定了导航过程的效率。在导航过程中,机器人除了需要面对静止的障碍环境还要处理动态的不确定障碍物,而现有的规划方法在该方面还有不足之处。为此,本文以移动机器人为研究对象,针对现有方法对静态及动态环境下机
目的研究自拟健脾益肾方治疗慢性肾衰竭(CRF)脾肾亏虚证48例临床价值。方法将48例慢性肾衰患脾肾亏虚证者随机分为观察组25例,对照组23例,观察组和对照组均给予西医基础治疗,观察组加用自拟健脾益肾方治疗,观察比较两组患者的临床疗效。结果治疗后,两组临床有效率分别为88.00%和60.87%,差异存在统计学意义(P<0.05);治疗后,两组中医证候积分均明显较治疗前降低(P<0.05),且观察组低
近年来,卷积神经网络在医疗领域的应用受到国内外研究人员的广泛关注,但仍面临亟需解决的两个重要难题:首先,当面临复杂的医疗图像处理任务时,堆叠卷积块构建的卷积神经网络无法学习到最具有区分度的独特特征来分类识别复杂的肺部纹理,无关或者冗余特征的存在导致分类性能无法满足医学临床要求。其次,端到端的模式使得深度神经网络通常被认为是无法解释的“黑匣子”,缺乏全面的可解释性很难获得专家医生和患者的信任。本文针
图像的生成、传输和存储过程往往伴随着质量的退化,导致图像丢失部分内容,对不同的任务造成干扰。图像超分辨率重建是将低分辨率图像恢复为高分辨率图像的技术,在遥感探测,视频监控等领域有着重要意义。近几年使用深度卷积网络进行图像的超分辨率重建成为了研究的热点,但是现有的网络对图像细节和结构的重建能力不足,另外网络模型对计算资源的要求较高,难以满足实际应用的需求,本文针对以上问题提出两种解决方案:(1)提出
天文参考架是天体测量的基础.从最早的FK5参考架,后来的伊巴谷参考架,到现在的Gaia参考架,光学参考架的精度越来越高.本文对近年来实现的光学参考架进行了总结分析,详细介绍了伊巴谷参考架和Gaia参考架,总结了参考架的连接方法.研究结果表明:Gaia实现的光学参考架在精度和轴稳定性上已经达到了射电参考架的水平.
江苏省政府近日印发《江苏省"三线一单"生态环境分区管控方案》。"三线一单"是指生态保护红线、环境质量底线、资源利用上线以及生态环境准入清单。《方案》明确,以改善生态环境质量为核心,建立覆盖全省的"三线一单"生态环境分区管控体系。根据《方案》,全省共划定环境管控单元4 365个,分为优先保护单元、重点管控单元和一般管控单元三类,
期刊