论文部分内容阅读
LAMOST建成后,预计能同时观测4000个目标天体,它将产生大量的光谱数据。这些海量数据的自动处理速度和质量是能否有效发挥天文望远镜潜力和实现科学目标的主要瓶颈之一。本论文工作的主要目标是为LAMOST星系观测光谱的识别提供可行的算法和技术。我们围绕星系光谱的分类问题研究了数据预处理、特征提取和分类器设计等内容,主要内容如下:
1.提出了相融性度量的概念。该度量能够刻画一个样本与训练集相融合的程度,并在此基础上给出了一种基于相融性度量的分类方法。该方法的主要特点是能综合处理光谱识别、特殊天体发现和错误积累抑制等问题。
2.推广并严格证明了均值漂移算法。推广后的算法能够更准确地反映数据的内在空间结构和不同样本间的可靠性差异。为均值漂移算法更广泛、深入的应用奠定了理论基础。
3.研究了光谱自动分类中数据格式和流量的标准化问题。首先,分析了不同数据格式对光谱的影响和格式标准化研究的必要性;然后,通过分析光谱流量数量级的不确定性及其特点,提出了流量数量级变化的基本模型,并给出了相应的标准化方法。研究发现,采用对数波长数据格式对光谱的自动分类更有利,且文献中通常采用的流量标准化方法在光谱自动分类中的效果较其它一些方法反而差。
4.研究了光谱自动分类中的有监督特征提取问题,特别是Fisher线性判别分析和相关向量机在星系光谱识别中的应用。研究表明,它们能有效地融合训练数据中的类别信息,并按照分类能力提取特征。