论文部分内容阅读
我国的郭守敬望远镜(大天区面积多目标光纤光谱天文望远镜,简称LAMOST)自开始正式巡天计划以来,每个观测夜会产生数万条光谱。随着时间的推移,将会产生海量光谱数据。本文的目标就是从这些海量的光谱数据中筛选出具有发射线的恒星光谱。有发射线存在的恒星光谱一般是激变变星、Herbig Ae/Be等特殊类型天体的光谱。对于恒星光谱而言,它们的红移值比较小,因而它们的谱线位置相对而言是比较固定的。如果在这些位置上有明显较强的发射线存在,那么这个天体是发射线恒星的可能性较大。恒星光谱中如果有发射线则表明它们曾经经历过或者正在进行着不稳定的抛射或吸积过程,这对研究恒星的演化有着非常重要的意义。由于发射线恒星数量较少,对其搜寻工作只能在大型科学巡天项目所产生海量光谱数据中进行,如SDSS及LAMOST项目等。针对LAMOST DR2中海量的光谱数据,欲要从中筛选出具有发射线的恒星光谱,必须要使用分布式、并行计算等大数据处理技术才能有效解决。本文的工作重点包括以下内容:1. 设计多线程并行化数据预处理方案,保证提取数据的准确性的同时,高效提取FITS文件内容到目标大文件中,并将所得目标文件存放到HDFS上,用于后续Hadoop集群上发射线恒星光谱的数据挖掘实验。2. 设计连续谱拟合方案,采用多项式拟合和中值滤波相结合的中值平滑多项式拟合方式,提升连续谱拟合效果;利用样本数据,调整谱线检测方案中涉及到的相关参数,提高谱线检测的准确率。3. 根据上述连续谱拟合、谱线检测参数调整实验,利用并行化计算模型MapReduce设计map-reduce流程,使用小样本数据进行多节点和伪分布式单节点集群测试实验,对比分析二者执行效率,并针对第一部分所得大目标文件进行发射线恒星光谱的数据挖掘实验。本文通过在多节点集群上进行并行化数据挖掘实验,从拥有4,136,482条海量光谱的大数据集LAMOST DR2中共识别出51,092条候选体恒星光谱中含有发射线,极大地提高了识别发射线恒星光谱的效率,为今后解决同类海量光谱数据的处理问题提供重要参考价值。