不完备基因表达数据的多目标聚类方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:Nathan_YM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量DNA微阵列检测技术的发展,产生了众多的基因相关数据,数量庞大的基因和生物网络的复杂性成为理解和解释这些数据的巨大挑战。聚类作为一种重要的数据分析方法,常用于分析基因表达数据。通过聚类阐明隐藏在基因表达数据中的模式,从中获取细胞的生理状态、基因表达调控信息以及基因功能对功能基因组学的研究有着重要的意义。在基因表达数据的获取过程中,受设备、实验环境、采集方法等因素影响,很多数据不可避免地存在缺失值,其填补准确度在一定程度上影响了最终的聚类效果。现有的针对不完备基因表达数据的聚类算法通常为“两阶段”算法,即将缺失值填补作为数据预处理过程,在填补后的数据集上进行聚类。“两阶段”算法常用且简单,但忽略了缺失值填补和聚类都依赖于挖掘数据集中基因的相关性,割裂了缺失值填补与聚类过程,影响了两者的协同进化。针对这一问题,本文提出了缺失值填补与聚类一体化求解的不完备基因表达数据多目标聚类算法。(1)本文从提高缺失表达值填补准确度的角度出发,提出了基于近邻区间的不完备基因表达数据多目标聚类算法。算法首先利用最近邻规则确定缺失表达值的近邻区间,将缺失表达值搜索限定在合理范围内,然后在多目标优化框架NSGA-Ⅱ下设置聚类中心与缺失表达值的混合编码,实现两者的协同学习。在相应最近邻区间内搜索优化的估计值,能够避免不合适信息对缺失表达值填补的误导,相比于在预处理过程中利用统计信息进行填补然后聚类的“两阶段”方法,所提一体化算法在利用数据集信息的基础上将聚类结果也作为填补因素,使得算法能够有效估计缺失表达值,进而提升不完备基因表达数据的聚类效果。(2)将基因相关领域知识整合到不完备基因表达数据的分析过程,有助于提高缺失表达值的填补准确度,鉴于此,本文提出了基于功能近邻区间的不完备基因表达数据多目标聚类算法。算法首先利用基因本体数据库得到基因语义相似度,融合基因语义相似度和表达值相似度确定缺失表达值的功能近邻区间,得到更贴近基因功能的缺失值搜索范围。在此基础上,采用混合编码实现缺失表达值填补与聚类中心的协同进化,达到提高填补准确度并改善聚类性能的目的。在多个基因表达数据集上的实验结果表明,所提算法较单纯基于基因表达数据的算法得到了更接近真实表达值的填补结果及更紧凑的聚类效果,且所得聚类结果是生物学显著的。
其他文献
显著性检测任务的目标是利用计算机模拟人眼注意力机制,以检测图片中的显著性区域及物体。该技术在很多实际应用中发挥着重要的作用。近年来,基于深度学习的显著性检测算法在检测性能上取得了阶段性的进展,但是其仍存在着诸多亟待解决的难题。首先,如何提升显著目标的边界清晰度并有效抑制背景噪声是提升模型检测性能的关键问题。另外,现有方法大都为提升算法性能的研究,而忽视了对模型计算量、存储量开销的限制。因此,如何平
伴随着科学与信息技术的发展,医疗超声设备在日常医疗中发挥着越来越重要的作用。在实际医疗应用中,随着医学影像设备的增加,不同的医学影像对分辨率等图像质量参数的需求不同,需要对患者的医学图像中的字符进行识别,实现对不同医学影像文件的分类。同时,为了对医疗超声设备的结果进行有效保存,需要采集并存储影超声像信息,因此导致医学影像记录存储数据量剧增。本文针对上述两个问题开展研究,主要工作如下:(1)针对字符
面向治安防控的行人异常行为的检测和研究在管理学领域有着重要意义,有助于实现城市管理、警情管理的自动化、智能化、去人工化;行人轨迹作为行人行为的重要特征可以反映行人的运动模式,是相关领域的研究热点之一。但是利用智能视频监控获取的轨迹往往伴随较多跟踪错误,并且现有的主流异常轨迹检测手段仅关注局部特征,导致不适用于复杂的行人轨迹。针对上述问题,本文提出了一套基于多特征融合的行人异常轨迹检测方案,对治安防
手势估计技术在众多实际应用中都提供核心技术支持。为解决手部姿态估计问题,本论文提出了一种基于多任务学习框架的高精度3D手势估计网络SegPoseNet。传统方法通常仅从单一任务角度提取图像特征,无法充分利用图像固有的丰富信息;同时,模型偏向单一化导向的优化指标也不能全面地反映数据真实分布情况。本研究工作对手部分割任务进行了深入地探索,通过引入分割语义信息指导手部姿态估计任务的学习。鉴于当前手势估计
三明治夹芯结构由夹芯层与上下金属合金板组成,其主要特点是内部含有大量孔隙,因此,在保证强度的基础上能有效降低结构重量。相对于传统层板结构,该结构具有吸能、抗震、减重、低成本等方面的优势,近年来,在航空航天、车辆、军工等重要领域均有大量应用。工程结构应用中,三明治夹芯结构不可避免地会遭受压缩、冲击等载荷作用,进而导致复合结构发生断裂、连接界面脱粘等破坏,因而研究具有不同多孔芯层结构参数的轻质金属聚合
水下图像增强在海洋探测领域中起着非常重要的作用。由于水下存在大量大小不一的颗粒物,成像时这些颗粒物会导致前向散射、后向散射及水本身会导致光强指数衰减,最终致使水下图像出现对比度低、能见度低、含有明显噪点等问题。使用普通光强图像难以取得理想恢复效果。越来越多的研究表明偏振是某些水下生物低光照下拥有视觉的关键。使用偏振图像的恢复效果受制于成像模型中对参数估计的准确性;使用深度学习受制于使用人工生成的水
三维彩色点云能够同时描述三维空间中物体的相对位置和颜色信息,近年来,越来越广泛地应用于数字化现实场景,如工业检测、自主导航、文物保护、虚拟现实等。通过标定激光与相机,对三维点云染色可以获取三维彩色点云。而在构建大范围场景的三维彩色点云时,需要利用配准方法,将不同位置下的三维彩色点云统一到同一坐标系下。本文通过研究三维激光与相机的间接标定法和直接标定法,融合三维点云与二维图像,获得三维彩色点云。对相
小型旋翼无人机灵活度高、机动性强,能适应复杂的室内外场景,因而在未知环境探索和地图构建等任务中得到越来越多的应用。目前,基于旋翼无人机的自主探索与语义建图面临诸多挑战:一方面,现有探索方法大多缺乏对探索效率和建图精度的综合考虑,所建地图往往误差较大,不利于无人机后续的运动规划;另一方面,当前语义建图方法对环境中深度变化不明显的区域分割效果较差,容易造成物体语义信息的丢失。本文对旋翼无人机的自主探索
随着智能制造领域的迅猛发展,制造业企业的在生产中产生的海量业务数据成为了制造业企业发展的宝贵财富。基于文本编程的工业数据管理系统要求开发人员熟练的掌握编程语言以及相关的工业互联网通信技术,存在着技术门槛高、复用性差、系统升级困难等问题。本文研究了一种图形化程序编程技术,用于实现工业数据采集与管理程序的图形化无代码开发。主要研究内容如下:首先,在研究了相关图形化编程标准与工业互联网通信技术的基础上,
配准技术指将不同时间、不同传感器在不同条件下获取的多幅图像与点云数据进行匹配对齐的过程,是计算机视觉中十分基础且重要的问题,在三维重建、视觉同步与定位、目标识别与跟踪、检索等计算机视觉任务均有着广泛的应用。基于特征的配准方法主要根据对特征关键点邻域进行特征描述以及对关键点特征进行匹配。特征描述旨在生成一个高维向量表征关键点的邻域信息;特征匹配针对待配准的图像或点云数据的特征点集确定特征点对应关系。