论文部分内容阅读
我国林业资源丰富、种类繁多,分布在全国各地的大小监测站搭载的各类传感器日积月累的监测生成了海量的数据,采用何种方式来有效地存储和管理这些数据是摆在我们面前的重要问题。在对传感器采集到的原始数据进行分析时发现这些数据或多或少均存在一些数值波动数据,为此本研究对这些数值波动数据进行了分析与总结,研究出了一套原始数据的误差消除算法。目前各类传感器监测到的原始数据存在较多误差和数值波动数据,有些数值波动是由于极端天气情况造成的正常数值波动,而有些数值波动是因为设备故障、外界干扰等原因造成的异常数值波动。因此,这些原始数据在存入数据库之前必须先经过人工处理数值波动的步骤,但是这样数据的准确性又受到了人为因素的干扰。本研究针对该问题采用天山西部某森林生态监测站的空气负离子浓度数据作为实验数据,研究了一套基于多元回归拟合的自动误差消除的算法,以简化数据处理程序,减少传感器监测的原始数据中存在的误差以及人为因素的影响,该算法拟合精度的浮动范围在14%以内。本研究比较了关系型和非关系型数据库的一般特性以及二者在存储海量数据时的优劣势,分析了目前8款主流NoSQL数据库的特性和适用场景,然后针对云平台中传感器数据文件的特点,结合本研究对比得出的结果,从中筛选出了三款待选的数据库,通过引述前人针对这三款数据库的性能测试结果,结合云平台传感器数据的存储需求,最终选择HBase数据库作为海量传感器文件存储平台。为了更加有效地发挥HBase数据库的优势,提高海量传感器监测数据的读写效率,本研究对于不同数据特点和类型采用不同的存储策略,在原始数据存入HBase数据库之前首先通过一个文件分流的中间件将不同类型的传感器数据分离开来,然后针对每类传感器数据分别采用不同的存储方式,将遥感影像与视频类监测数据通过数据库切割成若干个大小相等的数据块来存储,将图片类型监测数据合并为一个较大的数据块来存储,该数据块的大小与遥感影像、视频类监测数据切割后的数据块大小保持一致,数值型的数据在筛选出来之后首先通过自动误差消除算法对原始数据进行误差消除处理,然后再存入HBase数据库中。以天山西部森林生态e-Science平台为原型系统,将本研究研究得出的海量传感器监测数据存储策略应用到该平台中,分别采用原始存储策略和本研究设计的存储策略进行测试,比较测试结果,分析其适用性和可行性。测试结果显示,本研究设计的海量传感器数据存储策略显著提高了海量传感器数据尤其是数值型数据和图片类数据的存储及读取效率,具有一定的实用价值和现实意义。