论文部分内容阅读
随着信息技术的不断发展,信息量迅速增加。IDC报告指出:2011年的数据量达到里程碑式的1.8ZB,所有数据每两年将翻一番,到2020年信息量将达到40ZB,其中33%的数据将包含有价值的信息,而仅有0.4%的全球数据得到了分析,大数据时代来临。大数据指的不仅是数据量,更侧重于数据的描述方式、描述内容。因此,大数据的描述结构与认知方法变得尤为重要。海洋信息也是如此,本文基于海洋信息中多卫星监测海水海表温度的融合开展了以下研究:1)大数据的主要任务是通过大量的全方位高密度数据精确的描述复杂事物,本文将其定义为全信息数据。全信息融合则是以全信息数据为基础,通过信息融合技术全面认知复杂事物。在此过程中,无论从描述上还是认知上都存在着不确定性,这也正是信息不确定性来源的两个方面,这些问题在大数据分析/处理过程中尤其突出。因此,全信息融合不仅需要综合分析各种类型的不确定性信息/知识,更需要侧重处理信息/知识本身的不确定性。本文从信息/知识本身的不确定性出发,量化了全信息数据中多源信息的协同与冲突,在数值型数据融合的基础上实现了扩展信息融合及非结构化知识提取。2)在融合过程中,信息的预处理、量化及融合都存在着信息耗损,从而导致认知结果与真实情况存在差异。信息耗损量直接影响着认知的精度和信度,因此信息耗损的度量在融合模型的评估中就显得至关重要。本文利用基于数据情境语义的移动相对熵度量信源本身的不确定性,实现了不完备信息系统的指向性约简,进一步度量了融合过程的信息耗损。3)在信息融合的基础上,本文利用全信息融合模型模拟人类认知原理,初步实现了对全信息数据的认知,构建了全信息数据的多层多粒度解析与融合模型,达到了随着信源信息量不断扩充与信息粒度不断加细,融合结果的精度和信度逐步提升的目的。同时,在此过程中建立了耦合度矩阵融合模型、协同自适应融合模型、空间认知检索模型,分别解决了数据冲突、信息协同、非结构化知识检索等问题。综上,本文在多卫星传感器监测海水海表温度融合的背景下,构建了全信息数据融合模型,量化了多源信息自身的不确定性、一致性、冲突性、协同性,度量了融合过程中的信息耗损,并在此基础上模拟人类认知过程建立了随着信源信息量的不断扩充、信息粒度的不断加细,融合结果的精度和信度逐步提升的全信息融合模型。同时,本文利用信息的协同原理构建了基于群体决策的协同自适应融合模型,并构建了信息系统可信度分析的多层多粒度模型。在文章最后,探讨了在数据组成的虚拟世界中捕捉现实中的事件与规则,实现了融合结果的非结构化知识提取,从而为知识融合提供了开放式的检索方法。本文的研究工作刚刚起步,全信息数据的融合与认知正如人类对复杂事物的认知过程一样,是一个不断完善的过程。大量事实表明:在复杂信息系统中,群体决策的准确性远高于个体(领域专家)决策,今后可以从群体智慧与群体决策方向深入开展全信息数据认知的研究工作。