基于巡天观测数据的脉冲星智能搜索方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:mingdongbn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前有很多射电设备投入到脉冲星巡天观测,生成候选体图像越来越多,其中大部分是背景噪声或无用信息。人工识别方法效率低且主观性强,现有机器学习模型依赖于人工设计特征。本文的研究目的是:搭建高效的脉冲星候选体智能筛选模型且直接使用候选体图像作为模型训练的样本,实现直接对候选体图像的识别分类。支持向量机(SVM)具有明确的数学解释、无局部极小值问题和泛化能力强等优点。相比全连接神经网络,卷积神经网络(CNN)有自动提取图像的有用信息且参数更少、复杂度更低的优点。SVM和CNN在图像分类任务中各有优势,SVM具有很强的泛化性能,CNN具有学习样本潜在共性的优点。本文把它们分别应用于脉冲星候选体筛选,具体研究内容如下:(1)数据集构造。本文仅使用从CSIRO天文台获取的实测脉冲轮廓图(灰度图)作为样本,共包含有21颗脉冲星的观测图像,包括单峰、双峰脉冲星候选体图(正类)和非脉冲星候选体图(反类),本文称为原始图。构造由原始图组成的训练集CT、测试集CV、总数据集CZ;构造包含一维特征向量的训练集ST、测试集SV、总数据集SZ,其中一维特征向量由原始图像经单通道灰度化和一维展开得到,总数据集中含有训练集和测试集样本。(2)提出适应脉冲星候选体特征的SVM方法。采用scikit-learn搭建S0模型,分别以ST、SV训练和评价模型;因为脉冲轮廓图含有大量冗余信息,为寻找复杂度更低、性能更好的模型,构建S1S13模型,分别以ST、SV经不同维度PCA降维得到的特征向量训练和评价模型,即构建14个结构不同的线性可分支持向量机进行试验。实验结果表明:1)特征向量降维到不小于1200维时,正例和反例的空间分布是线性可分的;2)在一定降维范围内,PCA降维可以使模型在测试集中对正类的识别率保持稳定,但在反类上的识别率会降低,造成这种结果的原因可能是反类图像本身主要由噪声折叠生成,PCA降维的目的就是去除噪声;3)S0的性能最优异,在测试集中正例和反例的识别准确率分别为96.4%、92.8%。因为数据的反类样本不充足,构建的训练集都是小样本量的,所以反例样本的识别率比正例样本要低。(3)研究了基于CNN的脉冲星候选体筛选方法,提出了一种脉冲星候选体识别的CNN结构。为寻找相对最优的模型,采用Tensorflow搭建5个不同结构的CNN模型LC1LC5,并使用LC3模型分析不同学习率、不同优化算法对模型性能的影响。实验结果表明:当学习率为0.001、优化算法为Adam时,含有一个卷积层、两个隐藏层的LC4模型表现最优异,测试集上的准确率为99.8%。(4)为了评价不同算法的泛化性能,使用训练好的LC3、LC4和S0分别在总数据集上进行测试。实验结果表明:LC4、LC3、S0在正例和反例上的召回率(假正率)分别为98.99%(2.39%)、98.4%(2.86%)、97.34%(2.33%)。有以上结果可知,CNN的模型性能比SVM要优异,但SVM的性能是可以接受的。需要提及的是,CNN训练比较困难且耗时,SVM容易训练。在实际使用中,当对样本分类要求高时,使用LC3;当粗略筛选样本时,可以使用S0。在脉冲星候选体智能搜索领域,相比于国外用多特征训练模型,本文的CNN模型仅使用脉冲轮廓图,省去了前期繁琐的特征设计,但模型的泛化性能,尤其在筛选脉冲星候选体上,是十分优异的。相比国内算法,本文在使用更少训练样本的情况下,实现了更好的识别效果,加入了假正率和召回率指标,可更加全面的衡量模型的性能。
其他文献
元宝草(Hypericum sampsonii)属于藤黄科金丝桃属植物,别名王不留行、刘寄奴、对叶草等,为多年生草本植物。该植物广泛分布于我国南北各省,其中湖北及江苏、浙江、四川等各地
汞是污染环境的有毒物质,经食物链富集在人体内,会对人体健康造成严重的危害。因此,分离富集环境中的汞对生态环境及人类的健康举足轻重。将当前已成功应用于分离富集金属离
降雨诱发滑坡是全球广泛分布危害严重的地质灾害。传统岩土反分析方法一般采用单一类型监测数据对计算模型参数进行反演分析,无法充分有效地利用多种不同类型数据对计算模型进行校准。针对现有降雨滑坡反分析研究的局限性,基于贝叶斯理论提出了时变监测数据的多目标随机反分析方法,建立了降雨入渗边坡流固耦合的多目标随机反演模型,以某公路试验段路基工程和降雨入渗边坡为算例进行了多目标反演分析。主要工作内容与研究成果如下
自然界植物的多尺度结构与其力学性能之间的良好自适应关系为工程仿生设计提供了灵感,而植物中尺度下的组织重建及力学性能计算是实现多尺度仿生设计的重要纽带。本文针对现
在自然界中的鸟类以及鱼类都是通过翅膀以及身体的摆动来获得运动的动量,并且它们总是成群结队的运动,我们发现,当他们成群结队的移动时可以节省自身的能量。这项发现能推动
目的:造血干细胞(Hematopoietic stem cells,HSCs)是有自我更新潜力,并能够在人的一生中持续多向分化以形成多谱系血液细胞的一种成体干细胞。临床上主要是用造血干细胞移植(
化学工业过程的故障诊断一直都是整个行业的重要组成部分,更是国家经济、安全的强有力保证。同时由于化工行业的生产模式注定了其生产过程不直观,人们对于生产过程的状态只能通过数据间接观察,而化工生产过程拥有庞大的变量环境,传统意义上的故障诊断和监控方法效果并不理想。能够处理高维大数据的故障诊断需求也越来越强。本文针对现代化工生产需求提出了基于TE过程的高维大数据真实化工故障模型,并设计了改进的Fisher
围绕圆柱体的流动已经被广泛研究,有着了一百多年的历史,尽管它的模型较为简单但它包含各种复杂的流动特性。由于其广泛的工程应用以及由流体,尾流紊流,声学噪声等引起的振动
背景与目的改革开放以来,我国经济水平持续快速增长,人民生活质量、生活方式、保障水平得到了不断改善与提高。但随着生活方式及营养水平的改变,越来越多的中老年人出现了营
随着自动铺放技术的逐步发展,现有的铺放设备已经可以实现纤维丝束的变角度铺放,使得铺放角度在同一铺层内连续变化。相比于固定角度的传统铺放模式,纤维的变角度铺放不仅可以增大设计的灵活性,而且还能够更加充分地利用复合材料的方向特性,使得提高构件的性能或减小构件的重量成为可能。本文针对利用自动铺丝技术制备的变角度层合板,旨在研究铺放轨迹的测地曲率对复材构件抗拉、抗弯性能的影响,主要研究内容如下:首先,研究