基于PROV的提升数据挖掘结果可解释性的过程分析方法

来源 :武汉大学 | 被引量 : 0次 | 上传用户：Flying_wind

【摘要】

：

如今,企业强调基于数据决策的能力。数据挖掘作为一种典型的数据分析技术,能够发现隐藏在海量数据中的有用信息,在企业决策中发挥了重要作用。然而一个不争的事实是:虽然大量

【作者】

：

柯洁

【出处】

：

武汉大学

【发表日期】

：

2016年01期

【关键词】

：

数据挖掘过程可解释性数据起源 PROV 多维分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如今,企业强调基于数据决策的能力。数据挖掘作为一种典型的数据分析技术,能够发现隐藏在海量数据中的有用信息,在企业决策中发挥了重要作用。然而一个不争的事实是:虽然大量的挖掘结果(模型和模式的统称)被发掘出来,但挖掘结果可解释性却普遍不高。由于决策者不参与挖掘过程,使得挖掘过程对于他们来讲就像是个黑盒。当他们获得挖掘结果时,他们可能会问:该模型是基于哪些数据产生的?产生的过程是什么样的?相比较于其它模型,该模型是如何被挑选出来的?当前,类似于这样的问题并不能得到彻底解答,使得决策者很难去理解、信任所得到的挖掘结果。解释挖掘过程是提升挖掘结果可解释性的一种行之有效的途径。CRISP-DM(Cross-industry Standard Process for Data Mining)过程标准认为挖掘过程具有迭代的特性。为了探索出满意的挖掘结果,技术人员会对挖掘工作流进行不断的修改,并运行产生不同版本的挖掘过程实例。现有方法能够分别解释每个版本的挖掘过程实例,但对迭代特性的支持仍存在不足:1)缺乏挖掘工作流演化过程的解释,使得决策者不了解挖掘过程实例之间的联系和区别,从而缺少对比挖掘过程实例的依据;2)缺乏业务背景信息,决策者不明白数据的业务语义,从而难以理解挖掘过程这样开展的原因;3)交互性不足,不支持从多个维度和粒度来对比不同的挖掘过程实例。数据起源(Data Provenance)作为描述资源(如文档、数据等)演化历史的元数据,能够帮助用户更为透彻地理解资源是如何产生的,正好可以用来作为表达、解释挖掘过程的基础。PROV是起源领域最新的建模标准,它表达资源在整个生命周期内演化的轨迹,并支持演化过程的追溯。基于PROV,数据挖掘迭代的完整轨迹就可以被清晰的描述出来,决策者对挖掘过程所产生的疑问也就可以得到很好的解答。也正是由于能够揭示资源的完整历史,PROV目前已经在多个领域发挥了重要作用。在科学工作流领域,PROV被用于重现科研结果计算的过程,以实现科研结果的验证;在Web领域,PROV被用于描述信息传播的过程,以帮助用户评价信息的可信度。本文基于PROV来表达、解释挖掘过程,通过进一步支持挖掘过程的迭代特性,以达到提升挖掘结果可解释性的目的。具体完成的工作如下:1)提出了一种基于PROV的挖掘过程起源模型PROV-WD,以融合挖掘工作流和数据集两类资源的演化过程,解决了现有方法无法解释挖掘工作流演化过程的问题。该模型将PROV中的过程要素和关系在数据挖掘领域内具体化,并以此为基础建立了能够同时描述上述两类资源演化过程的表达机制。相比现有的挖掘过程概念模型,该模型增加了挖掘工作流演化过程的描述,为挖掘过程实例的对比提供了依据。并且,现有的研究只将PROV应用于表达某一种资源演化的过程,PROV-WD则能够同时描述两类资源的演化过程,是对PROV应用的一次拓展。2)提出了一种融合了业务背景信息的挖掘过程起源模型,以解决挖掘过程解释中缺乏业务背景信息的问题。通过对PROV模型进行扩展,使其能够表达业务概念的包含和业务语义关系,并建立了业务概念与PROV-WD中数据要素进行映射,将业务背景信息融入到了挖掘过程的起源表达之中。该模型为数据要素提供了业务语义说明,使得挖掘过程的解释可以置于一定的业务背景之中,并且对PROV的表达机制进行了扩展,增加了表达业务背景信息的部分,对于PROV在其它领域的应用具有重要借鉴意义。3)提出了一种起源信息的多维数据模型,即起源立方体,以支持挖掘过程实例的多维度和多粒度的对比,从而解决挖掘过程分析中交互性不足的问题。借鉴OLAP分析中多维数据建模的思想,文中建立了“事实-维度”结构的挖掘过程起源信息存储模式,并抽象出了切块、切片等查询操作。起源立方体支持直接从维度出发,结合不同维度和粒度来分析挖掘过程,提升了挖掘过程分析中的交互性。4)基于RapidMiner Studio平台,给出了原型系统DMAnalyzer的设计方案,以验证本文挖掘过程分析方法的可行性。重点针对该平台在挖掘过程解释上问题,给出了起源信息收集、起源信息管理和多维分析引擎三个核心模块的详细设计方案。并基于DMAnalyzer进行了案例分析,验证了本文方法在支持挖掘过程迭代特性上的有效性。针对挖掘过程解释中存在的三个问题,本文基于PROV起源模型提出了一种挖掘过程分析方法。该方法不仅解释了挖掘工作流的演化过程,为挖掘过程实例的对比提供了依据,还为数据要素提供了业务语义说明,并提出了一种新的起源信息存储模式来支持挖掘过程的多维分析,提升了分析的交互性。

其他文献

正交试验优化中药萹蓄中总黄酮的提取工艺

目的利用索氏提取法提取萹蓄中总黄酮,并应用分光光度法对总黄酮含量进行测定。方法以总黄酮为考察参数,通过正交试验优化提取工艺。结果体积分数为7 0%的乙醇溶液、提取时间

期刊

分光光度法萹蓄总黄酮正交试验提取工艺

基于内存数据库的三维模型管理方法

现有的三维模型大多利用关系数据库和文件系统进行管理,在对其可视化的过程中,存在调用模型速度慢、前端绘制不流畅等问题。为解决上述问题,提出了一种基于redis内存数据库的

期刊

三维模型glTFredis内存数据库

浅谈全面预算管理中的成本控制

在企业的管理中，全面预算管理是非常有效的一套综合管理方法，它能对企业中的所有业务和整个业务过程都能进行控制，在整个控制过程中，成本控制是最重要的。本文首先对成本控制原则

期刊

成本控制管理全面预算

西安市成人慢性肾脏疾病流行病学研究

目的初步探讨西安市成人普通人群中慢性肾脏病的流行病学特点。方法对西安市铁路系统散居于各城区的职工进行调查,了解慢性肾脏病的患病率及部分危险因素。结果3511名资料完

期刊

慢性肾脏疾病筛查流行病学危险因素患病率

生态农业经济评价指标体系探讨

<正> 从原始农业到传统农业,从传统农业到工业化农业,从工业化农业到生态农业是历史的必然发展。传统农业主要是经验农业。工业化农业主要指利用工业化的科学技术的农业。而

期刊

经济评价指标工业化生态农业综合评价指数体系探讨

磁共振扩散加权成像对肝脏肿瘤的诊断

目的探究采用磁共振扩散加权成像在肝脏肿瘤的临床诊断效果。方法选择我院2012年5月-2015年5月收治的肝脏良性肿瘤和恶性肿瘤患者80例，对所有患者给予磁共振扩散加权成像诊断

期刊

磁共振扩散加权成像肝脏肿瘤诊断效果

伊曲康唑在血液病化疗后真菌感染的疗效观察

目的观察研究伊曲康唑(西安杨森)在血液系统恶性肿瘤患者化疗后继发真菌感染治疗中的剂量选择、确切疗效、不良反应等,以期为治疗血液科真菌感染的药物选择提供参考。方法回

期刊

伊曲康唑侵袭性真菌感染

糯米饭团

糯米平滑,籽粒饱满,富含蛋白质和脂肪,营养价值较高。古人每逢收获季节,一定要把糯米酿成酒,煮成饭或做成点心,祭祀天地和祖宗,然后才开怀畅饮,进食糯米饭。今天的人们与古人

期刊

糯米饭

散发性戊型病毒性肝炎142例临床分析

目的：探讨本院收治的散发性戊型病毒性肝炎（戊肝）的临床特点及其预后。方法：对经血清学检测证实的１４２例戊肝患者进行分析。结果：临床上戊肝患者黄疸较深，过半数病例血清胆红素（ＳＢ）≥１７０μｍｏｌ／Ｌ，伴随

期刊

肝炎.戊型重叠感染

发挥新闻功用助力精准扶贫

习近平总书记在中央扶贫开发工作会议上强调,全面建成小康社会,是我们对全国人民的庄严承诺。脱贫攻坚战的冲锋号已经吹响,大家要立下愚公移山志,咬定目标、苦干实干,坚决打

期刊

秦皇岛

基于PROV的提升数据挖掘结果可解释性的过程分析方法

其他学术论文