基于并行平台的LAMOST发射线恒星光谱的数据挖掘

来源 :山东大学 | 被引量 : 0次 | 上传用户:lyzwrf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国的郭守敬望远镜(大天区面积多目标光纤光谱天文望远镜,简称LAMOST)自开始正式巡天计划以来,每个观测夜会产生数万条光谱。随着时间的推移,将会产生海量光谱数据。本文的目标就是从这些海量的光谱数据中筛选出具有发射线的恒星光谱。有发射线存在的恒星光谱一般是激变变星、Herbig Ae/Be等特殊类型天体的光谱。对于恒星光谱而言,它们的红移值比较小,因而它们的谱线位置相对而言是比较固定的。如果在这些位置上有明显较强的发射线存在,那么这个天体是发射线恒星的可能性较大。恒星光谱中如果有发射线则表明它们曾经经历过或者正在进行着不稳定的抛射或吸积过程,这对研究恒星的演化有着非常重要的意义。由于发射线恒星数量较少,对其搜寻工作只能在大型科学巡天项目所产生海量光谱数据中进行,如SDSS及LAMOST项目等。针对LAMOST DR2中海量的光谱数据,欲要从中筛选出具有发射线的恒星光谱,必须要使用分布式、并行计算等大数据处理技术才能有效解决。本文的工作重点包括以下内容:1. 设计多线程并行化数据预处理方案,保证提取数据的准确性的同时,高效提取FITS文件内容到目标大文件中,并将所得目标文件存放到HDFS上,用于后续Hadoop集群上发射线恒星光谱的数据挖掘实验。2. 设计连续谱拟合方案,采用多项式拟合和中值滤波相结合的中值平滑多项式拟合方式,提升连续谱拟合效果;利用样本数据,调整谱线检测方案中涉及到的相关参数,提高谱线检测的准确率。3. 根据上述连续谱拟合、谱线检测参数调整实验,利用并行化计算模型MapReduce设计map-reduce流程,使用小样本数据进行多节点和伪分布式单节点集群测试实验,对比分析二者执行效率,并针对第一部分所得大目标文件进行发射线恒星光谱的数据挖掘实验。本文通过在多节点集群上进行并行化数据挖掘实验,从拥有4,136,482条海量光谱的大数据集LAMOST DR2中共识别出51,092条候选体恒星光谱中含有发射线,极大地提高了识别发射线恒星光谱的效率,为今后解决同类海量光谱数据的处理问题提供重要参考价值。
其他文献
随着高速铁路的快速发展,现在的铁路客运最高时速已经能达到481km/h,如此高的速度已经不能依靠人的驾驶,而需要由整个系统来保证列车运行的安全。目前使用的安全系统门类众多,每
量子电路是构建量子计算机的基本单元,也是描述复杂量子计算的高级语言。量子电路是可逆的,可逆逻辑因其在量子技术中的重要应用而引起人们的广泛关注。目前,可逆电路还广泛应用
地理信息系统(GIS, Geo —Information system)是展示和分析包含空间位置属性的多种信息的强大工具,基于GIS的数字铁路信息系统综合全球卫星定位、遥感等技术,实现铁路系统资
随着计算机软硬件、网络以及多媒体技术的迅速发展,产生了大量的数字图像。因此,如何高效的管理和检索现代大规模的图像数据库,已成为目前的一个研究热点,基于内容的图像检索
目前随着Web和访问控制的不断成熟,基于访问控制的应用不断涌现。分布式环境中的委托授权已成为访问控制领域的研究热点,为访问控制提供了更广阔的拓展空间。虽然很多研究者
诊断设备能否精确地瞄准实验靶球以实现自动化控制是惯性约束核聚变(ICF)系统中的公共诊断平台急需解决的问题之一。根据ICF工程检测要求,构建了一套三维精确定位机器视觉系统
学位
入侵检测是近十年发展起来的一种动态监测、预防或抵御系统入侵行为的安全机制。目前入侵检测有许多模型和方法,而神经网络和模式识别等技术的引入使网络安全的智能检测研究
随着互联网技术的迅速发展,互联网对人们生活的影响力越来越大,用户对从互联网中获得全面、权威、地域性信息的需求越来越强烈,比如生活在深圳的人对深圳的信息的兴趣更大。
无线传感器网络是一个多学科交叉的新型热点研究领域,应用前景广阔,受到国内外研究人员的高度关注,并得到了快速的发展。在无线传感器网络快速发展的同时,也出现了许多亟待解
随着科技的不断进步,面向工程的科学计算也越来越复杂,模型愈加复杂、代码愈加庞大等,使得任务计算对设备性能要求愈来愈高,单一的机器或集群已经不再满足任务需要。网格作为