多源异构海量石油数据的数据清洗技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:yuhua1435
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息化的迅速发展,国内石油公司数字化建设的进一步深入,导致相关信息的数据量呈陡增趋势,要能够从海量、多源、异构的数据中挖掘出有用的信息,进而帮助决策者做出正确策略的一个重要前提就是高质量的数据清洗。而在海量、多源、异构数据中进行数据清洗无疑是一项复杂且艰巨的任务,国内外现有的清洗方案要么是针对不同行业数据特色而形成的方案,要么是对简单数据进行数据清洗的通用清洗方案。目前还没有较为完善的针对海量多源异构的石油数据的数据清洗方案,所以探索海量多源异构石油数据的数据清洗方案很有必要。对半结构化和非结构化数据进行了特征研究,通过把数据转换成XML数据,形成四面体结构,建立相关的语义评价矩阵、结构评价矩阵,最后根据这两个矩阵进行相似重复记录清洗。结构化数据进行数据融合后,数据清洗针对的对象有相似重复记录、异常值、缺失值,通过对现有技术方法的研究,考虑这些方法应用于石油领域数据的局限性,提出了一种基于Hadoop分布式并行框架的,适用于海量、多源、异构石油大数据的分布式数据清洗方案,其中囊括了分别针对相似重复记录、异常值、缺失值的基于Hadoop平台的聚类分区式相似重复记录清洗方法、基于Hadoop平台的异常值关联规则清洗方法、基于Hadoop平台的聚类填充式缺失值清洗方法。借助Hadoop分布式处理的优势,利用聚类分区方法,对石油领域数据进行相似重复记录清洗,结合石油领域本体知识库的关联规则,对异常值进行识别,并采用关联规则对异常值进行修改,对已经识别的缺失值利用石油领域本体知识库的关联规则和聚类后的类间关联关系进行综合关联填充。最后,本论文以胜利油田地质研究院、海洋采油厂近七个月的,分别存储于MongoDB、Oracle、MySQL等数据库的管线监控实时数据、油井监控实时数据、油井日产量数据,还有一些海上平台监控视频数据为实验对象,使用本文方案与传统方案进行实验。实验结果表明,本文提出的方案在海量数据的处理上,在运行效率和准确率上具有明显的优势。
其他文献
本文对低等白蚁台湾家白蚁(Coptotermes formosanus Shiraki)肠道中的异养型细菌、固氮菌、产甲烷菌和纤维素降解菌作了计数、分离和鉴定,研究了白蚁的固氮活性、甲烷释放特性、
目前,对心脏进行血流动力学分析的方法已从有创、微创的方法成功发展到无创的方法。无创法应用较广的主要有超声多普勒法和胸部生物阻抗法。胸部生物阻抗法和超声多普勒法相
基于卷积码先验校验向量,提出了一种数字视频广播卫星标准(DVB-S)接收系统中内码信息估计的快速算法.在误码率较高的情况下,利用先验校验向量进行内码估计,在误码率较低的情况下,利
随着城市建设的不断发展,低高度拱形桥梁的设计应运而生。结合工程实际,在低高度拱形桥梁施工中应用双自由端碗扣架支撑,不仅优化了传统模式,而且可根据拱形高差设置不同长度
利用赤平投影法和实体比例几何法分析隧洞围岩稳定性,根据隧洞沿线所遇结构面相互组合形式,预测隧洞围岩不稳定楔形体的位置及其发育深度,从而估算不稳定楔形岩块的体积和重量,为
木糖是木质纤维素水解液中含量仅次于葡萄糖的单糖。目前,木糖广泛用于生产多种化学品,比如燃料乙醇、燃料丁醇、乙偶姻、PHA等。最新的研究发现,木糖生产来源于乙酰辅酶A的
目的研究早期康复训练在治疗脑卒中后抑郁中的作用。方法脑卒中后抑郁(post-stroke depression,PSD)患者96例,按随机原则均分为两组。观察组常规治疗并加入早期康复训练;对照组
本文以内部控制五要素为实施路径,系统研究和梳理印章管理制度和流程,确定各流程环节中的主要风险,提出加强和规范印章管理的应对措施。
报告15例在我院静脉输液穿刺过程中发生晕针的患者,总结晕针的原因、临床表现、预防和护理对策。以便在静脉穿刺治疗时有效的预防晕针的发生并及早处理。