论文部分内容阅读
当前有很多射电设备投入到脉冲星巡天观测,生成候选体图像越来越多,其中大部分是背景噪声或无用信息。人工识别方法效率低且主观性强,现有机器学习模型依赖于人工设计特征。本文的研究目的是:搭建高效的脉冲星候选体智能筛选模型且直接使用候选体图像作为模型训练的样本,实现直接对候选体图像的识别分类。支持向量机(SVM)具有明确的数学解释、无局部极小值问题和泛化能力强等优点。相比全连接神经网络,卷积神经网络(CNN)有自动提取图像的有用信息且参数更少、复杂度更低的优点。SVM和CNN在图像分类任务中各有优势,SVM具有很强的泛化性能,CNN具有学习样本潜在共性的优点。本文把它们分别应用于脉冲星候选体筛选,具体研究内容如下:(1)数据集构造。本文仅使用从CSIRO天文台获取的实测脉冲轮廓图(灰度图)作为样本,共包含有21颗脉冲星的观测图像,包括单峰、双峰脉冲星候选体图(正类)和非脉冲星候选体图(反类),本文称为原始图。构造由原始图组成的训练集CT、测试集CV、总数据集CZ;构造包含一维特征向量的训练集ST、测试集SV、总数据集SZ,其中一维特征向量由原始图像经单通道灰度化和一维展开得到,总数据集中含有训练集和测试集样本。(2)提出适应脉冲星候选体特征的SVM方法。采用scikit-learn搭建S0模型,分别以ST、SV训练和评价模型;因为脉冲轮廓图含有大量冗余信息,为寻找复杂度更低、性能更好的模型,构建S1S13模型,分别以ST、SV经不同维度PCA降维得到的特征向量训练和评价模型,即构建14个结构不同的线性可分支持向量机进行试验。实验结果表明:1)特征向量降维到不小于1200维时,正例和反例的空间分布是线性可分的;2)在一定降维范围内,PCA降维可以使模型在测试集中对正类的识别率保持稳定,但在反类上的识别率会降低,造成这种结果的原因可能是反类图像本身主要由噪声折叠生成,PCA降维的目的就是去除噪声;3)S0的性能最优异,在测试集中正例和反例的识别准确率分别为96.4%、92.8%。因为数据的反类样本不充足,构建的训练集都是小样本量的,所以反例样本的识别率比正例样本要低。(3)研究了基于CNN的脉冲星候选体筛选方法,提出了一种脉冲星候选体识别的CNN结构。为寻找相对最优的模型,采用Tensorflow搭建5个不同结构的CNN模型LC1LC5,并使用LC3模型分析不同学习率、不同优化算法对模型性能的影响。实验结果表明:当学习率为0.001、优化算法为Adam时,含有一个卷积层、两个隐藏层的LC4模型表现最优异,测试集上的准确率为99.8%。(4)为了评价不同算法的泛化性能,使用训练好的LC3、LC4和S0分别在总数据集上进行测试。实验结果表明:LC4、LC3、S0在正例和反例上的召回率(假正率)分别为98.99%(2.39%)、98.4%(2.86%)、97.34%(2.33%)。有以上结果可知,CNN的模型性能比SVM要优异,但SVM的性能是可以接受的。需要提及的是,CNN训练比较困难且耗时,SVM容易训练。在实际使用中,当对样本分类要求高时,使用LC3;当粗略筛选样本时,可以使用S0。在脉冲星候选体智能搜索领域,相比于国外用多特征训练模型,本文的CNN模型仅使用脉冲轮廓图,省去了前期繁琐的特征设计,但模型的泛化性能,尤其在筛选脉冲星候选体上,是十分优异的。相比国内算法,本文在使用更少训练样本的情况下,实现了更好的识别效果,加入了假正率和召回率指标,可更加全面的衡量模型的性能。