脑卒中不平衡数据集的分类算法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:caipeng1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种急性脑血管疾病,脑卒中已经成为我国第一大致死原因,早期防治和及时诊断对于脑卒中的预防、诊治和预后康复有着重要作用。近年来随着人工智能的不断发展,机器学习方法辅助医疗诊断可以很大程度上减少医生的诊断时间并提高医疗资源的利用率,因此引起了越来越多的关注。脑卒中患者的脑电信号(Electroencephalogram,EEG)和经颅多普勒数据(Transcranial Doppler,TCD)的采集均具有无创性、便捷性和准确性,在脑卒中的诊断过程中有广泛的应用前景。但目前脑电信号和经颅多普勒数据需要专业医生的分析和解读,因此在临床实践中受限于医生的专业知识和工作经验。由于脑卒中数据存在明显的不平衡特性,因此建立在平衡数据的前提下的传统机器学习方法对于脑卒中数据的分类会出现明显的性能下降。为此,本文的主要目的是对不平衡脑卒中患者的脑电信号和经颅多普勒数据进行分类研究,主要工作包括脑卒中数据的预处理、特征提取和针对不平衡脑卒中数据集的分类识别。本文所做工作主要有以下几点:首先,详细介绍了本文使用的脑卒中数据集和提取的相关特征,并通过在脑卒中脑电信号数据集上的实验对比了主成分分析方法(Principal Component Analysis,PCA),多维尺度变换(Multi-dimensional Scaling,MDS)和邻域保持嵌入(Neighborhood Preserving Embedding,NPE)三种不同降维方法对脑卒中脑电数据集分类性能的影响。通过实验证明对该数据集进行特征选择和降维处理在很大程度上降低了参数寻优和分类过程中的时间损耗和计算成本。然后,从分类算法的角度通过分析不平衡数据集对支持向量机算法的影响,并提出了最大化Gmean值(Geometric mean)的不平衡数据集分类算法。不同惩罚因子算法(Different Error Costs,DEC)改善了支持向量机算法对不平衡数据集分类的适应性,但仍存在明显的不足。以二分类为例,该算法只提出了通过赋予数据集中两类样本不同权重以提高分类算法在训练过程中对样本数目较少的一类样本的重视程度的思想,却没有给出权重具体选择的依据。即使已有研究证明按照数据集的不平衡比例选择两类样本的权重可以获得较好的分类性能,但本文通过仿真实验发现在保持权重比值和数据不平衡比例相同的情况下,具体取值的不同仍会给分类性能带来较大的波动,因此证明了参数寻优对于DEC算法具有重要作用。此外,虽然传统机器学习算法均以最大化分类准确率作为寻优目标,但并不适用于不平衡数据集的分类问题。为此本文提出的最大化Gmean值的不平衡数据集分类算法将最大化Gmean值作为参数寻优的目标,旨在改善分类算法在不平衡数据集上的分类性能。通过在脑卒中EEG数据集和脑卒中TCD数据集上的实验,对比了最大化分类准确率、AUC值(Area Under the Curve)和Gmean值分别作为参数寻优目标时的分类性能,实验结果证明以最大化Gmean值作为参数的寻优目标可以获得更好的分类性能。最后,从数据处理角度分析了多种重采样方法的特点和对分类性能的影响,提出了基于VAE-MF的不平衡数据集过采样方法。由于传统重采样方法不能从数据集的统计分布特性出发生成新样本或者删除样本以削减数据的不平衡比例,所以会引入较大的噪声或者破坏数据集的原始分布情况,导致最终的分类性能出现明显的下降。为此,本文通过分析变分自编码作为生成模型和使用隶属度函数判断样本受噪声影响程度的工作原理,并借鉴过采样方法的主要思想提出了一种新的过采样方法。该方法使用变分自编码作为生成模型生成新样本以降低数据集的不平衡比例,之后通过隶属度函数判断生成的新样本受噪声影响的程度,并据此对新样本进行筛选,最后使用支持向量机算法对数据集进行分类。此外,在详细分析现有隶属度函数对高维数据适应力不足的基础上,本文通过引入超球面提出了一种新的隶属度函数。在两个脑卒中数据集上的实验证明了本文提出的过采样方法和隶属度函数均能在一定程度上改善不平衡数据集的分类性能。
其他文献
近年来工业及社会经济的飞速发展让人们享受了生活质量提高的同时,也带来了严重的空气污染问题,尤其是毒害气体的排放对人们的身心健康及财产安全产生了极大的威胁。因此,越来越多的研究人员致力于开发高效检测有毒有害气体的检测装置,气体传感器由于易制备、成本低、体积小等优点在气体检测领域得到了广泛应用。作为决定气体传感器性能的核心部分,敏感材料的选择也成为了主要的研究对象。目前,基于金属氧化物半导体材料(MO
随着社会上科学技术的不断进步,人们的生产生活方式逐渐向着智能化和自动化的方向发展。在气象和航空领域中,随着深度学习技术的不断引入,云团识别、云团分类、云团分割、飞行器自动化航行以及航行线路规划等是领域内专业性较强的问题,如何利用深度学习自动化完成一直是相关研究人员研究的热点。卫星云图中包含着丰富的信息资料,其中所包含的各类云团信息更是在气象和航空领域中天气预测和航线规划的不可或缺的基本资料。针对庞
随着柔性电子器件的发展,柔性传感器的应用范围越来越广泛,其内容包括力传感器、温度传感器、湿度传感器等。近年来,柔性磁场传感器的研究也越来越进入人们的视野。目前大部分磁传感器都是刚性传感器,未来设备要求磁传感器具有出色的柔韧性和可拉伸性,以便适应复杂的检测环境和机械变形,因此对于柔性磁场传感器的研究迫在眉睫。许多研究人员基于压电、摩擦电、应力等不同机制实现了柔性磁场传感器的制备,并对其响应原理进行了
随着经济的快速发展和科技的不断进步,移动机器人在生产生活中扮演着越来越重要的角色,而移动机器人的位姿估计是实现机器人应用必须要解决的关键问题。本文着重研究非高斯噪声下的移动机器人的位姿估计算法,以提高移动机器人位姿估计精度。在同时定位与地图构建(Simultaneous Localization And Mapping,SLAM)框架下,研究内容围绕影响机器人位姿估计精度的后端优化算法和前端点集配
“十四五”规划纲要指出:加快数字化发展,打造数字经济新优势,建设数字中国。数字化必将深刻引领社会变革,数字化落地是当代科研工作者将理论与现实结合的重大使命。全面数字化的实现需要强大的算力中枢和优良的算法系统。图像检索领域的研究是数字化社会的重要内容。如何快速且准确的在海量图像中检索出所需图像是一项具有挑战性的任务,本文在传统图像检索的基础上加以改进,对其经典算法进行深入改良,结合深度学习技术在提取
人机交互是现代计算机技术不断智能化和自动化发展的一个趋势。人机交互是人体通过自己的手势、行为、语音和表情等与计算机进行交流,为人类操控计算机提供了多样且智能的方式。随着现代计算机视觉技术的兴起,基于视觉的人机交互方式成为发展的主流。其中,静态手势识别和动态人体行为识别等技术是新兴的视觉人机交互的重要方式,可以在设备解锁、机器人运动操控等方面提供出色的表现。而且基于卷积神经网络的图像处理技术表现优异
近几年,我国建筑业的规模越来越大,数量越来越多,建筑业也在激烈的市场竞争中不断创新,建筑施工中暖通工程的出现极大地提升了人们生活的舒适度。文章针对建筑工程中的暖通工程在设计方面存在的问题进行简要分析并提出相关解决方法,可供相关人员开展同类工程项目设计时参考。
抓取和放置工件是工业环境下机器人系统的主要任务之一,视觉控制是机器人系统的重要控制手段,采用图像技术对工件进行识别在现代化智能生产线上具有重要的意义。本论文主要以合页为例进行按需搬移任务,可用于机器人打磨前代替人工进行工件摆放,有助于提高机器人打磨生产线的自动化程度和生产效率。本论文主要对散乱堆叠工件的按需搬移过程进行研究,主要研究内容如下:(1)针对目前工业现场弱纹理堆叠工件识别困难的问题,提出
《简·爱》(Jane Eyre)与《呼啸山庄》(Wuthering Heights)作为世界文坛上经典的两部现实主义代表作品,是由英国同胞姐妹作家夏洛蒂·勃朗特(Charlotte Bronte)和艾米莉·勃朗特(Emily Bronte)创作的,虽然说她们所处的社会环境背景与家庭生活背景都一样,但是在这两部文学作品创作过程中却有着明显的不同之处。前者《简·爱》在叙事策略上采用的是单一叙事者
期刊
汽车保有量的迅猛增长造成城市交通供需关系的失衡,由此导致的交通拥堵范围日益扩大,已逐步发展成为区域性的拥堵问题。实践证明,新建交通基础设施或实行政策调控等措施都无法真正从根本上解决区域交通拥堵,因此寻求更加合理有效的交通信号控制策略成为研究区域交通拥堵的必然趋势。论文以“基于迭代学习控制的城市交通子区边界控制方法研究”为主题,首先对大规模路网进行了子区划分,并针对实际交通情况研究了在考虑随机扰动以