论文部分内容阅读
随着全球信息化的迅速发展,国内石油公司数字化建设的进一步深入,导致相关信息的数据量呈陡增趋势,要能够从海量、多源、异构的数据中挖掘出有用的信息,进而帮助决策者做出正确策略的一个重要前提就是高质量的数据清洗。而在海量、多源、异构数据中进行数据清洗无疑是一项复杂且艰巨的任务,国内外现有的清洗方案要么是针对不同行业数据特色而形成的方案,要么是对简单数据进行数据清洗的通用清洗方案。目前还没有较为完善的针对海量多源异构的石油数据的数据清洗方案,所以探索海量多源异构石油数据的数据清洗方案很有必要。对半结构化和非结构化数据进行了特征研究,通过把数据转换成XML数据,形成四面体结构,建立相关的语义评价矩阵、结构评价矩阵,最后根据这两个矩阵进行相似重复记录清洗。结构化数据进行数据融合后,数据清洗针对的对象有相似重复记录、异常值、缺失值,通过对现有技术方法的研究,考虑这些方法应用于石油领域数据的局限性,提出了一种基于Hadoop分布式并行框架的,适用于海量、多源、异构石油大数据的分布式数据清洗方案,其中囊括了分别针对相似重复记录、异常值、缺失值的基于Hadoop平台的聚类分区式相似重复记录清洗方法、基于Hadoop平台的异常值关联规则清洗方法、基于Hadoop平台的聚类填充式缺失值清洗方法。借助Hadoop分布式处理的优势,利用聚类分区方法,对石油领域数据进行相似重复记录清洗,结合石油领域本体知识库的关联规则,对异常值进行识别,并采用关联规则对异常值进行修改,对已经识别的缺失值利用石油领域本体知识库的关联规则和聚类后的类间关联关系进行综合关联填充。最后,本论文以胜利油田地质研究院、海洋采油厂近七个月的,分别存储于MongoDB、Oracle、MySQL等数据库的管线监控实时数据、油井监控实时数据、油井日产量数据,还有一些海上平台监控视频数据为实验对象,使用本文方案与传统方案进行实验。实验结果表明,本文提出的方案在海量数据的处理上,在运行效率和准确率上具有明显的优势。