论文部分内容阅读
传统的野外地质填图需要耗费大量的人力物力,依靠人来划分的地质界线具有主观性,可能会出现不同填图者判断出不同的地质界线的情况。利用计算机自动识别地层岩性是为解决传统地质填图问题而产生的,其方法为在多源数据的支撑下,建立岩性识别专家知识库,利用现今各种分类算法实现岩性的计算机自动分类识别。
利用遥感(Remote Sensing,RS)影像进行岩性分类是遥感地质的重要应用之一,遥感具有时效性高、获取周期短、经济成本低等特性,能获取丰富的地面信息,包括颜色、色调、纹理、地物大小、几何形态等。在植被覆盖少、岩石裸露的地区遥感影像能真实记录岩石的光谱特征及形态特点,从而可快速进行大面积岩性分类实验;而在植被茂密、岩石裸露少的地区,遥感影像记录的仅仅是岩石上覆的植被信息,直接利用遥感数据很难获得较好的岩性分类效果,因此,需在遥感数据的基础上加入其他岩性相关因子以获取较高精度的岩性分类结果。
面向对象技术在遥感影像数宁处理方面应用较多,由于本文研究的是大范围地层岩性类别的识别,每一类别的范围较大且光谱特征多样化,为解决“噪声点”及“分类椒盐”现象,在利用ETM+影像波段提取纹理特征时采用了面向对象技术,在进行图像分割后再进行纹理特征的提取,因此后续的分类过程针对的是对象而不是单个像素,有效提高了岩性分类精度。
C5.0决策树算法是数据挖掘分类模型中应用比较广泛的一种,它起源于概念学习系统CLS(Concept Learning System),由学者Ross Quinlan首先提出ID3算法,经不断改进先后演变出改进的ID3算法、C4.5算法,最后形成C4.5的商业化版本C5.0,它具有构造简单、分类快速、模型精度高等特性,主要是针对大数据集的分类,能产生更准确的规则,分类精度也大幅提高。
本义利用GIS(Geographic Information System)、RS(Remote Sensing)技术与C5.0决策树方法结合,以三峡库区秭归-巴东段为试验区,进行大范围地层岩性相关因子分析及分类预测,主要研究内容及结论如下:
一、空间数据的整理、处理及管理。
利用试验区基础地质数据、基础地形数据和遥感影像数据,通过数据需求分析、数据收集与整理、坐标配准及校正、数据矢量化、属性数据录入、数据入库过程,建立研究区岩性分类预测空间数据库。
二、不同角度纹理特征统计量的提取。
植被覆盖区的岩性分类仅靠遥感影像数据很难获得较好的分类效果,加入与岩性相关的因子,如纹理、植被及地貌坡度则可有效提高精度。其中纹理因子的特征采用两个不同角度进行提取,即基于像素的纹理特征提取和面向对象的纹理特征提取。
在基于像素的纹理特征提取过程中,由于波段信息冗余,因此采用计算标准差及信息熵的方法选择包含信息最丰富的ETM+5波段。同时在计算灰度共生矩阵纹理统计量时需选择合适的窗口,在实验的22个连续的窗口大小中,在窗口大小为37时纹理特征统计量出现陡变的情况,尤其足相关性首次出现负值,最后选择窗口大小为35的纹理特征统计量作为分类预测因子。
在面向对象的纹理特征提取过程中,首先要对选择的ETM+5波段进行图像分割处理,选择融合了光谱和形状信息的eCognition软件的分割技术。在众多的实验结果中,选择尺度参数为22,光谱参数为0.75,形状参数为0.25,并且表征形状的光滑度和紧凑度参数均为0.5下的图像分割结果作为分类预测因子。
三、C5.0决策树分类预测模型的建立及调整。
采用C5.0决策树算法,建立研究区岩性分类预测的初始模型,根据实际需要,通过调整模型参数来提高模型分类预测能力,相应的模型调整参数有:剪枝程度的选取、剪枝过程中最小分枝数的设定以及Boosting技术的应用。实验证明,基于像素的决策树分类模型及结果精度在模型参数调整后没有得到提高,反而有一定程度的下降,因此不予采用;而面向对象的决策树分类模型及结果的精度稍有提高,但幅度不大。
四、两种数据源下调整后的C5.0决策树分类预测的模型及结果对比分析。
在两种数据源样本集的基础上,分别调整对应的C5.0决策树模型,达到最优状态,用调整后的模型对研究区两种不同数据源总样本进行分类预测,并对比了各自的模型及分类结果精度。结果表明:
(1)基于像素的决策树分类模型及结果精度均在67%左右,分类正确的可信度为0.6左右;而面向对象的决策树分类模型及结果精度均高达92%左右,分类正确的可信度为0.8左右,后者各项参数均远远高于前者;
(2)在推理规则集实验结果中发现,基于像素的决策树分类预测因子按重要性由高到低排列的前六个分别是:ETM+1、熵、坡度、ETM+3、ETM+4、归一化植被指数NDVI,说明光谱、纹理、植被及地貌因子重要性比较均匀,仅植被因子相对较差;面向对象的决策树分类预测因子按重要性由高到低排列的前六个分别是:对比度、熵、角二阶矩、相关性、ETM+1、NDVI,前四个都是纹理因子,后面的才是光谱和植被,说明纹理在面向对象的决策树分类过程中对提高起着重要的作用。
(3)不仅面向对象决策树分类精度高于基于像素的决策树分类精度,而且在分析十种类别的单个精度后发现,前者每一类别的生产精度与用户精度也分别高于后者,同时两者的类别精度高低顺序基本一致,通过分析发现,研究区分布面积大且分布集中形态规则的类别分类精度要高于分布面积小或分布零散或形态不规则的类别分类精度。基于像素的决策树分类类别最高精度可达0.83左右,类别最低精度仅0.33左右,而面向对象的决策树分类类别最高精度可高达0.95,类别精度最低的为0.50。总体上,面向对象的决策树分类效果要远远好于基于像素的决策树分类效果。