论文部分内容阅读
近十年来随着国内外大型光谱和测光巡天项目的相继开展,天文数据呈指数增长。如何从海量天文数据中挖掘出有益的信息或知识是天文研究者必须面对的挑战和任务。 本文的重点是基于斯隆数字巡天(Sloan Digital Sky Survey,SDSS)的测光数据探讨类星体测光红移估测算法。应用SDSS第七次数据释放(Data Release7,DR7)的类星体测光数据,考察和对比了k近邻(k-nearest neighbors,KNN)、偏最小二乘方法(Partial Least Square,PLS)、Lasso(the Least Absolute Shrinkage and Selection operator)算法、岭回归(Ridge regression)、基于随机梯度下降(Stochastic Gradient Descent,SGD)的逻辑回归(Logistic Regression)、极端随机森林(Extremely randomized trees,Extra-Trees)在预测类星体测光红移方面的性能,结果表明KNN和Extra-Trees的性能明显优于其他四种方法。基于SDSS第十二次数据释放(Data Release12,DR12)的类星体测光数据,首次应用极端随机森林来估测类星体的测光红移。研究结果显示在单独应用SDSS参数时,Extra-Trees算法的性能优于KNN,而再增加其他波段(UKIDSS、WISE)参数时,KNN显出它的优越性。然后基于不同的数据集SDSS DR7和DR12,使用Extra-Trees预测类星体测光红移,若单从四个预测指标来看,DR7的结果优于DR12。这是由于DR12的类星体数据大部分集中在高红移区域,随着类星体的星等变暗,数据的质量下降所致。随着DR12的数据越来越完备,在DR12数据基础上,创新地使用极限学习机(Extreme Learning Machine,ELM)对类星体先分类,而后应用KNN方法进行红移估测,发现大幅度提升了红移预测的精度,远远优于单纯KNN的性能。很显然应用ELM改进KNN的方法(ELM-KNN)对类星体测光红移估测具有很大的优越性。 本文介绍了数据挖掘技术及其在天文学中的应用,并就类星体测光红移估测这一具体问题展开了详细探讨和研究。最终发现在预测类星体测光红移时,在低维空间中Extra-Tree具有明显优势,集成方法ELM-KNN比传统单方法(如:KNN、Extra-Trees)更具有竞争力。