基于知识图谱和机器学习的污染源普查数据审核

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:gloria2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2017年12月31日起我国开展第二次全国污染源普查。普查数据作为制定环保政策与编制环保规划的依据,数据质量至关重要。十年前,第一次污染源普查受到技术发展的限制,数据审核不到位,数据质量存疑,造成普查成果应用不足与大量人力物力被浪费的问题。将大数据分析技术应用到污染源普查数据审核中,能够解决技术限制的问题,缩小入户核实范围,高效准确地指出数据质量存疑企业与指标。本文根据普查过程实际需求,首先选择示例行业,并利用示例行业的数据,基于知识图谱与社会网络分析法建立逻辑关系审核方法模型,用于审核文字型数据(原料、工艺等)不符合实际生产工况关系问题;基于孤立森林算法(iForest)、自组织映射神经网络算法(SOM)建立数值型数据审核方法模型,用于审核数值型数据(产污、排污量等)不准确问题。通过相邻节点距离可视化与现场核实反馈结果找到算法最佳阈值,优化模型。通过准确率、精确率、召回率、F1值(精确率与召回率的调和平均值)的计算对模型进行评价。最终应用到污染源普查数据审核中,审核过程包括数据清洗、标准数据集建立、逻辑关系审核与数值异常审核、现场核实、反馈结果。结果表明,逻辑关系审核方法模型在数据清洗阶段与社会网络分析阶段的阈值分别选择0.5%与70%时,不会遗漏重点考察指标且能保证审核结果达到最优。对近8000家企业进行初次审核与二次复核,分别找到1539家与386家企业数据存在问题,现场复核范围缩小了 80.74%与95.16%。数值型数据审核方法模型的阈值选择0.26时,审核结果达到最优,准确率、精确率、召回率、F1值分别可达:94.00%、95.95%、95.95%、0.9595。对14000余家企业进行审核,找到1095家企业数据存在问题,现场复核范围缩小了 81.92%。本文建立的数据审核模型在污染源普查数据审核过程中缩小了入户核实范围,使复核过程目标性更强,节省了时间、人力物力;准确指出存疑企业与指标,错误数据及时更改,数据质量得到提升。同时,也为环境统计领域数据质量的提升提供了新思路。
其他文献
并购已经成为我国经济活动中的重要组成部分,对公司结构和治理水平产生了较为深远的影响。国内外的学者围绕并购展开了较为深入的研究,多从经济学的角度围绕并购绩效进行研究,少有以供应链内部整合为基础的运作绩效作为主要绩效衡量指标来检验横向并购行为发生前后企业绩效变化情况。由此,针对这方面的研究缺失,本文以供应链内部整合的视角出发,选取运作绩效相关指标,验证横向并购与运作绩效之间的关系,并提出相关建议。本文
随着近几年海洋资源的深入开发,水面无人艇因为其优秀的运动特性而被广泛研究应用。针对水面无人艇广阔的市场前景,国内外学者在其运动特性、艇型优良设计,以及水动力优化等
目前对热水沉积区优质烃源岩的研究以及热水沉积与优质烃源岩成因机理关系研究,还相对比较薄弱。对热水沉积与优质烃源岩的相关性与成因机理的研究,不仅属于一项基础研究,而且对于油气的勘探开发均具有重要的理论和实际意义。本研究拟以黔北地区下寒武统牛蹄塘组黑色页岩为重点,系统采集黔北贵州省贵阳市清镇市百花湖乡温水村,遵义市遵义县松林镇中南村,毕节市织金县桂果镇联兴村,黔东南州麻江县下司镇羊跳村,黔东南州丹寨县
正交频分复用(OFDM)是一种适用于高速无线传输的多载波调制技术。它已经被广泛的应用于多径衰落条件下,具有频谱效率高、抗多径衰落等优点。OFDM与生俱来的高峰均比问题限制了它的广泛应用。在许多文献中提出的很多的峰均比(PAPR)降低技术中,子载波预留技术已经受到了很多关注。该技术使用一些预留子载波来产生峰值减小信号以降低OFDM信号的峰均比。然而,获得优化的峰值减小信号需要解决一个二次约束的二次规
时间序列是否具有混沌特性决定着预测方法的探究及其相关性质的讨论,影响着时间序列预测的准确性,混沌辨识为时间序列的预测提供了重要的理论前提,因此,混沌辨识研究在时间序列分析上具有极其重要的地位.本文主要采用有序模式、排序熵等研究方法及混沌理论对降雨量时间序列、径流量时间序列以及交通流时间序列进行研究.首先,对降雨量时间序列和径流量时间序列以及交通流时间序列进行数据预处理.其次,引入基于有序模式的三态
随着中国物流行业的蓬勃发展,物流在不断凸显其对我国经济发展的基础性作用的同时也带来了巨大的挑战。在当前物流行业的粗放发展模式下,物流成本过高的问题已经成为物流行业
本文为《铁路桥涵混凝土结构设计规范》汉译英翻译实践报告,是作者读研期间参与的一个基于计算机辅助翻译工具的协同翻译项目,作者负责其中约16000汉字的翻译。本报告首先介绍了该翻译项目的大致情况,阐述了该项目的实际意义,分析了客户要求,并梳理了本报告的脉络结构。其次,本报告回顾了项目译前、译中与译后的过程。之后则重点解释了技术文本中专业术语的含义及特点,并阐述了专业术语翻译的原则。本文的一大创新在于:
隐藏吸引子是一种新的吸引子,与典型的Lorenz、Rossler、Chen吸引子不同,它不包含平衡点的邻域,也不能用传统的计算方法去计算这些隐藏吸引子.第一章讲述吸引子理论研究的背景和意义,并介绍隐藏吸引子的一些预备知识,如:新分析-数值算法的思想、谐波线性化和稳定周期解的定位.第二章研究一类非线性Van der Pol-Duffing振子,研究这一非线性系统的隐藏吸引子.首先,通过计算系统的特征
近年来,深度学习方法极大地提高了人脸识别的准确性,为了获得更高的识别准确率,集成学习可以应用于深度学习算法中。传统识别算法难以捕捉到面部表情所传递的有用信息,面部表情识别存在分辨率低、遮挡、光照、位置等问题,通常情况下,由于这些面部表情分类很差,人类无法识别它们。此外,面部表情的分类比较特殊,例如面部微笑并不总是意味着开心,面部表情往往取决于文化。然而,提高面部表情识别准确率可以应用到更灵敏、更智
第一部分倒退型孤独症谱系障碍儿童基于纤维束示踪的空间统计分析研究目的:利用基于纤维束示踪空间的统计分析(Tract-based spatial statistics,TBSS)技术,比较分析孤独症谱