复杂预测模型中的变量影响研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:falconlingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据资源的日益丰富,机器学习模型逐步被用于发现隐藏的数据模式和趋势,并且已经广泛应用于很多领域,如医疗、金融、营销等等。虽然机器学习模型具有一定的应用广泛性和优势,但仍有一些人由于对模型的理解及经验不足等原因,对机器学习模型的使用持消极态度。这表明人们在使用机器学习模型时还存在许多障碍。对高预测准确率的追求导致许多机器学习模型都异常复杂,表现出黑箱特性,黑箱模型的可解释性较差是阻碍用户使用机器学习模型的关键因素。复杂预测模型指的是输入变量与预测变量之间具有复杂的非线性关系的模型。一般来说,绝大多数机器学习模型都具有这个特点,如神经网络和随机森林等,其内部机制很难被人们理解,人们无法对模型的计算过程和结果进行具体的解释,因而很难通过分析模型的输入和输出进行决策。此外,当模型的透明度较低时,也很难赢得模型使用者的信任。复杂预测模型可解释性的理论和方法研究,将有助于提高用户对机器学习模型的信任和信心,并推动机器学习模型更加广泛的使用。基于此,本文主要研究两方面的内容:(1)用户决定是否采纳复杂预测模型时,主要的影响因素有哪些,如何从这些因素入手,促进复杂预测模型的采纳。在研究这一问题时,本文梳理了技术接受模型的相关文献,并结合机器学习模型的特点,整合其他外部变量,通过复杂预测模型用户接受意愿影响因素实证研究,探索鼓励企业采纳复杂预测模型的关键因素,尝试寻找有显著影响的因素,并给出一些建议来促进复杂预测模型的采纳,以便机器学习能够为企业提供更完善的服务。在复杂预测模型采纳的影响因素中,模型的可解释性较差一直是阻碍用户使用的关键因素。因此,研究机器学习黑箱模型的可解释性对模型采纳的影响是这部分内容的研究重点。(2)复杂预测模型用户接受意愿影响因素的研究从用户采纳的角度给出了复杂预测模型可解释性研究的必要性。对于复杂预测模型的可解释性,本文主要研究怎样识别输入变量对预测结果的不同影响,以及如何使模型结果能够有效地支撑决策。针对这一问题,本文梳理了黑箱模型可解释性研究的相关文献,着重探讨有监督学习模型中输入变量对预测结果的影响。其中,对于输入变量,分别从变量独立和变量相关两个不同角度,提出了通过识别输入变量对预测结果的影响来解释黑箱模型的方法。并应用于人工数据集和真实数据集中,在实验中体现出变量影响对于黑箱模型可解释性和决策分析的重要作用。复杂预测模型的可解释性是影响用户采纳的重要因素,可解释性研究一般分为三类:变量贡献研究、变量交互作用研究和变量影响识别方法研究。对于本文要着重研究的变量影响的识别方法,从目前的研究成果来看,有些方法只能观察到部分影响,忽略了一些重要影响。还有一些方法不能简单直观地分析出变量间交互作用的影响。此外,现阶段的研究仅限于输入变量独立条件下对预测结果的影响研究,本文对于输入变量相关条件下对预测结果的影响也进行了深入研究。相比于以往的研究成果,本文的主要研究结论与启示如下:(1)机器学习模型的可解释性对信任因素有非常重要的影响,而信任在影响感知有用性和态度方面起着关键作用。组织因素(管理者的要求和竞争对手的压力)对使用机器学习模型的态度和行为意图也有很强的积极影响。基于机器学习模型可解释性的理论和方法研究,将有助于提高用户对机器学习模型的信任和信心,并推动机器学习模型更加广泛的使用。(2)本文提出了一种分析输入变量独立条件下对预测结果影响的新方法。该方法从个体观测的变量影响出发,将个体影响聚为几种典型的影响曲线,呈现出变量对预测结果影响的单调性和形状,最后,基于树规则的变量关系图揭示隐含在预测模型中的变量间的交互作用,并直观地展现出最重要的影响变量。(3)除了变量独立条件下的影响研究,本文还提出了输入变量相关条件下对预测结果影响的方法,并与变量独立条件下的影响进行对比分析。(4)变量影响识别在现实中的应用主要体现在四个方面:基于影响曲线图进行预测模型比较,评估预测模型的质量,通过变量关系图识别最重要的变量,完善策略的设计以改进模型的输出。本文的主要贡献和创新点体现在以下三个方面:第一,提出一种新的基于变量独立条件假设的变量影响识别方法。该方法能够简洁、直观、完整地展现输入变量对预测结果的典型影响,并能够利用树规则揭示变量间的交互作用,提高了变量影响识别效果。第二,提出一种新的基于变量相关条件假设的变量影响识别方法。该方法解决了现有研究中主要基于变量独立假设的不足,提高了变量影响识别方法对各种应用场景的适用性。第三,基于扩展的技术接受模型,提出了一种机器学习技术采纳理论模型,验证了模型解释研究的必要性。
其他文献
结核病是由结核分枝杆菌感染导致的传染病,目前仍是威胁人类健康的主要传染病。2014年,世界卫生组织报告结核分枝杆菌引起960万人的感染,并造成150万人死亡。据统计,世界上大概1/3的人感染过结核分枝杆菌,但不是所有的被感染者都会引起结核病,大部分无症状或者症状轻微,为隐性感染,仅约10%的感染者发展为结核病。结核分枝杆菌感染宿主,细菌的毒力和宿主的免疫反应决定了疾病的转归。近些年来,关于病原体的
随着智能设备的发展与普及,网络中接入的海量智能终端设备产生了大规模的运行数据,数据规模呈爆发式增长,给资源受限的本地用户带来了极大的数据管理压力。基于云计算服务提供的数据存储与计算的外包服务模式,越来越多的用户乐意将自身的数据外包给云服务平台进行管理。具体来说,在云计算中,通过云服务商提供的存储空间和计算能力外包服务,用户可以依照自身数据规模和计算任务,购买云服务商的存储空间以及计算服务,这样不仅
图是数据分析的一种关键技术,能够充分建模真实系统中实体之间的复杂关联和交互行为。图表示学习旨在将高维稀疏的拓扑节点映射成低维向量表示并同时保持图中的信息,用于节点分类、链接预测和推荐系统等多种基础任务,是图数据挖掘领域的重点研究方向。当前,图建模和图表示学习主要聚焦于静态的同质图,认为实体类型单一且实体间的交互恒定不变。然而,在实际的社会媒体、电商平台以及学术网络等系统中,通常存在多种类型的实体以
安吉拉·卡特(1940-1992),英国当代文坛最具先锋开拓精神的作家之一,其文学创作始终关注女性面临的生存困境,以极具个人风格的写作方式表达她对女性问题深刻而独到的见解。本文选取卡特的六部代表作,从女性生存困境与出路的角度讨论卡特在文学创作中对女性问题的思考及独特性与思想贡献。本论文共分三部分,包括绪论、正文与结语。绪论首先对卡特的生平、作品进行简单梳理,进而提出论文所要探讨的问题,对研究缘起进
位置服务在智慧城市、智慧工厂、公共安全等众多领域中都发挥着重要作用。复杂环境下传统非协同无线定位技术容易出现信号盲区,导致定位精度差甚至无法提供定位功能,难以满足高精度高可靠的定位需求。协同定位技术的出现为复杂环境下的高精度高可靠定位提供了新的解决思路,已成为定位导航领域的研究热点。本文针对在仅依靠锚节点无法完成定位的欠定位环境下协同定位面临的主要难题,深入研究了基于空间相关性的测距误差协同补偿、
政府举债对社会经济的影响一直是经济学界研究的重点问题之一,2009年欧洲主权债务危机的爆发使地方政府举债问题重新被推向经济学研究的前沿。如今,地方政府债务衍生出的问题非常棘手,如何预防地方政府债务的急剧膨胀,如何化解居高不下的债务规模等,均成为当代经济学家和政策制定者密切关注的问题。在中国,随着近年来杠杆率的快速上升,全社会债务风险不断增大,地方政府债务规模的不断扩张受到了越来越多专家学者的关注。
本文旨在研究糙皮侧耳(Pleurotus ostreatus)对棉籽壳木质纤维素降解,及饲喂经糙皮侧耳发酵后的棉籽壳对绵羊营养物质消化代谢和粪便微生物多样性的影响;对棉籽壳游离棉酚的降解以及其机制,为微生物发酵棉籽壳脱毒和粗饲料的开发应用提供参考。主要研究结果如下:试验一:高效木质纤维素降解菌株的筛选及液体培养基成分的优化通过平板显色、退色反应进行初步筛选和液体产酶试验进行复筛选,得到木质纤维素降
语音增强技术是人机交互系统在复杂声学环境中正常工作的重要保证。根据采用麦克风数量的不同,语音增强技术可分为单通道和多通道语音增强。相较于后者,单通道技术并不依赖于麦克风精度,具有易用性和有效性而被广泛研究。目前主流的单通道方法通常是基于时域和变换域中语音和噪声的差异性特征。然而这些方法过于依赖于噪声估计精度,且在低信噪比条件下面临鲁棒性被制约等问题。针对以上难题,本文分别从频域、调制域和时域角度,
近年来,随着云计算、物联网等技术的发展,人们对通信带宽和数据速率的要求不断提升。与传统无线电通信、光纤通信不同的是,自由空间光(Free Space Optics,FSO)通信有高带宽、易于部署、低功耗、低质量以及高安全性等特点,能够有效填补前两者的不足,在面向长距离、高速和大容量的通信方面具备巨大潜力。面向高速、大容量的全球通信发展趋势,涡旋光束(Optical Vortex,OV)在FSO通信
第六代移动通信系统(6th Generation Mobile Communication System,6G)作为5G通信的延伸,对通信距离、通信容量等提出了更高的要求。天线作为无线通信系统的关键器件,负责发射和接收电磁波能量,其性能直接影响着通信质量。高增益阵列天线及携带轨道角动量(Orbital Angular Momentum,OAM)的高聚焦涡旋电磁波天线在提高通信距离、信道容量等方面具