基于密度聚类和卷积神经网络的生物数据分析研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:onionshen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,生物数据规模大、增长快、包含信息丰富等特点越来越突出,使得目前对生物数据分析与信息处理技术的要求逐渐提高。其中,把握数据模式和发展趋势,从而用于对未来数据的预测是生物数据分析的重要目的。本论文针对高分辨质谱成像数据进行相关研究,其中图像为15T傅里叶变换-离子回旋共振质谱仪采集大脑中存在的各种化合物,旨在通过机器学习技术,深入挖掘化合物对应图像之间所蕴含的信息规律和预测未知数据的发展方向。由于质谱图像蕴含信息量大但视觉特征不明显,研究人员难以确定数据类别并评估图像信息。在这种情况下,本论文基于892幅质谱图像被分为5到11类的先验知识,对其进行数据聚类和分类的研究,主要工作如下:(1)质谱图像的分析和特征提取。对生物图像进行深度解析和预处理,包括滤波、颜色特征解析等,从而提取能表征图像信息的特征向量。同时,对图像的解析进行直观的展示,生成有价值的图像特征。(2)基于密度聚类进行质谱图像的聚类分析,从而实现无类别标号的图像初步划分。在基于密度的算法基础上,提出自动选取中心点和异常点阈值的方法,使算法能够自动选取最佳聚类个数。经实验分析,聚类结果对应的评价标准和生物学专家评估表明,算法自动选取的中心点和异常点符合数学意义和生物含义。同时,实验结果对参数的选择和不同距离测度标准具备鲁棒性,与其他经典聚类算法相比具有明显优势。(3)质谱图像的分类预测。本论文首次基于卷积神经网络(Convolutional Neural Network,CNN)的Alex Net模型,实现对质谱图像的分类识别。在聚类结果的基础上,通过对图像类标的人工矫正定义明确的类标。首先,利用具有明确类标的716幅质谱图像,实现基于CNN的特征提取。其次,在CNN的基础上,利用支持向量机(Support Vector Machine,SVM)实现分类验证。实验结果表明,随机选取450幅图像作为训练数据时,利用不同CNN输出层的特征获得的分类准确率在91.4%到95.2%之间。当实验的训练集达到300以上时,准确率即可超过90%,不同的训练集对应的实验结果呈现较为稳定的趋势。最终,本论文得到训练好的分类器模型,实现了质谱图像在CNN的基础上快速分类预测的目的。
其他文献
以黄光荧光染料5,6,11,12-Tetraphenylnaphthacene(Rubrene)作为超薄层,制备了白光有机电致发光器件,并采用改变荧光超薄层厚度的方法,通过表征器件的电致发光光谱,分析了超薄层中染料
方言是语言的具象表征,鲜明的地域特色特征决定了它作为地域文化代言者的地位。恩施方言折射出恩施各族人们在语言创造上的智慧,与其他地域方言一样,在捍卫文化多样性中具有重要
在《共产党宣言》中,马克思恩格斯明确指出:“共产党人可以把自己的理论概括为一句话:消灭私有制”。而资产阶级却借此污蔑共产党人是要消灭个人的财产、消灭人的个性的基础,
《普通高中数学课程标准》(2017版)已经颁布,首次提出了数学核心素养的概念,要在教学过程中培养学生数学抽象、逻辑推理、数学建模、直观想象、数学运算以及数据分析素养。2018级的高中生马上要面对2021年新模式的高考,但是学生使用的教材还是2003版的课标教材。在这段新旧教材交替的时期,学生核心素养的养成情况怎么样,教师在课堂教学中落实核心素养的意识情况怎么样,怎样培养学生数学核心素养,怎样将核心
采用电化学二次阳极氧化法分别在纯硫酸、纯草酸及硫酸-草酸混合电解液中制备了3个系列的多孔阳极氧化铝(AAO)样品, 考察了它们在250 nm光激发下的光致发光(PL)特性. 研究结果表