论文部分内容阅读
近年来,生物数据规模大、增长快、包含信息丰富等特点越来越突出,使得目前对生物数据分析与信息处理技术的要求逐渐提高。其中,把握数据模式和发展趋势,从而用于对未来数据的预测是生物数据分析的重要目的。本论文针对高分辨质谱成像数据进行相关研究,其中图像为15T傅里叶变换-离子回旋共振质谱仪采集大脑中存在的各种化合物,旨在通过机器学习技术,深入挖掘化合物对应图像之间所蕴含的信息规律和预测未知数据的发展方向。由于质谱图像蕴含信息量大但视觉特征不明显,研究人员难以确定数据类别并评估图像信息。在这种情况下,本论文基于892幅质谱图像被分为5到11类的先验知识,对其进行数据聚类和分类的研究,主要工作如下:(1)质谱图像的分析和特征提取。对生物图像进行深度解析和预处理,包括滤波、颜色特征解析等,从而提取能表征图像信息的特征向量。同时,对图像的解析进行直观的展示,生成有价值的图像特征。(2)基于密度聚类进行质谱图像的聚类分析,从而实现无类别标号的图像初步划分。在基于密度的算法基础上,提出自动选取中心点和异常点阈值的方法,使算法能够自动选取最佳聚类个数。经实验分析,聚类结果对应的评价标准和生物学专家评估表明,算法自动选取的中心点和异常点符合数学意义和生物含义。同时,实验结果对参数的选择和不同距离测度标准具备鲁棒性,与其他经典聚类算法相比具有明显优势。(3)质谱图像的分类预测。本论文首次基于卷积神经网络(Convolutional Neural Network,CNN)的Alex Net模型,实现对质谱图像的分类识别。在聚类结果的基础上,通过对图像类标的人工矫正定义明确的类标。首先,利用具有明确类标的716幅质谱图像,实现基于CNN的特征提取。其次,在CNN的基础上,利用支持向量机(Support Vector Machine,SVM)实现分类验证。实验结果表明,随机选取450幅图像作为训练数据时,利用不同CNN输出层的特征获得的分类准确率在91.4%到95.2%之间。当实验的训练集达到300以上时,准确率即可超过90%,不同的训练集对应的实验结果呈现较为稳定的趋势。最终,本论文得到训练好的分类器模型,实现了质谱图像在CNN的基础上快速分类预测的目的。