解释性数据分析及其在犯罪模式挖掘与事件预测中的应用

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:xyw1h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的发展,处理图像、音频、视频等数值类机器学习算法日渐兴盛。而其中解释性的研究工作,因暂时没有摆脱传统基于规则算法的限制,逐渐在研究浪潮中趋于弱势。对于一些复杂问题而言,规则与解释性复杂烦扰,难以理顺,机器学习算法尽显其优势。在机器学习热潮高涨的进程中,基于规则的算法和解释性一度被推到了机器学习的对立面,以至于产生过“大数据不需要因果关系”的说法。然而,随着人工智能的发展,和人们对智能时代的呼唤,大数据分析发展的必然方向将会是智能数据分析。届时,解释性将会是对同一数据做出不同选择的智能因素之一,脱离解释性的数据分析只是一时之举。当一些机器学习方法区域成熟稳定之后,其发展瓶颈必然会在解释性方向。因此,在本文中,我们提出了解释性数据分析的想法,将解释性作为数据分析的基础,将纯数值计算方式作为辅助的必要手段。概括说来,本文提出的解释性是指对于数据和问题本身的理解,是对分析和解决问题方案的描述,可以分为数据解释性、语义解释性和逻辑解释性。对于具体模型而言,其数学基础即为数学解释性;语义解释性是指利用数据特征所包含的语义对模型进行方向性调整和改进;而逻辑解释性即为利用领域知识对特征和数据之间的逻辑关系加以分析和利用,结合数学解释性与语义解释性,平衡数据之间和各个解释性之间矛盾,进一步细化结果的技术。为了对解释性数据分析做出探索性研究,本文从数据输入,模型处理和输出挖掘三个阶段,对解释性数据分析的全过程进行了尝试。在数据输入阶段,本文分别对数据矩阵的行与列的代表性问题进行研究:即不平衡数据问题和主成分分析问题。模型处理阶段和输出挖掘阶段需要在特定的应用领域完成,本文选择了犯罪学领域,一方面因其具有关系人民生命财产安全的重要意义,另一方面因为其专业领域需要较强的解释性因素。在具体模型改进方面,本文针对两种具体的循环神经网络结构进行解释性数据分析改进。在输出挖掘方面,本文也针对经典的挖掘方式,进行解释性数据分析改进,得到了更为精细的犯罪模式。本文的主要贡献包括:1.解释性不平衡数据分析方法:本文研究了不平衡数据的过采样技术,借鉴生成对抗网络中生成对抗的博弈思想,在解释性的基础上提出了生成对抗线性模型。本文使用对数几率回归线性模型取代生成对抗网络中的神经网络模型,大大提高了训练效率。与生成对抗网络不同,我们使用生成对抗博弈思想的目的不在于生成数据,而在于对分类线的调整。生成对抗网络只学习输入的真实数据,即只对一类数据学习,而我们在解释性的指导下,同时引入多数类和少数类样本进行训练。从实验结果看,我们的模型处理的输入数据取得了更好的分类效果。2.解释性主成分分析方法:本文研究了主成分分析方法及其主要改进算法,在现有主成分分析方法的基础上,我们融入了解释性数据分析方法。把以数值数据计算为主的方法,改进为以解释性为基础,数据计算为辅助参数的方法。经过多个不同原理分类器的检验,以及不同角度实验的充分测试,我们的方法选出的主要成分比现有的方法具有更好的分类表现。3.解释性局部连接的循环神经网络:本文研究了基于时间序列的定量犯罪预测,提出了交织时间序列的思想,用于处理不同时间间隔的时间序列,而不必进行重采样。交织时间序列的思想是指犯罪案件是在多条时间序列交织汇聚的时间点发生的,作用结果为多个效果的叠加,而与时间序列本身的间隔无关。在这个思想的实现上,以解释性为基础,采用了局部连接的循环神经网络:长短时记忆网络和门结构循环单元网络。在真实世界犯罪数据的检验下,本模型对犯罪事件的定量预测高于对比的时间序列模型和没有解释性结构的循环神经网络模型。4.解释性结式线索犯罪模式挖掘技术:本文研究了邻近重复犯罪现象的模式挖掘问题。邻近重复犯罪现象是犯罪学中的一个重要问题,即在犯罪案件发生之后,邻近地区会存在类似案件重复发生的现象。在解释性的基础上,本文提出了结式线索技术,即利用解释性来制定模式挖掘的算法细节和使用方案,进而纵向递进挖掘线索的方法。本文使用该技术分析了不同的地理区域和不同犯罪类型之间的细粒度犯罪模式,对打击和挖掘犯罪组织,警力部署与合作等方面提出了合理的决策支持。
其他文献
海底管道是海洋油气资源最主要的输运方式,按照横截面结构可将其分为单层管、双层管和夹层管。随着油气资源的勘探开发逐渐向深水和超深水海域进军,深海高压环境容易诱发管道
目的牙周炎是牙齿缺失的主要原因之一,致使人们的饮食和生活质量受到影响。牙周基础治疗是目前为止治疗牙周炎的首要和有效的方法。治疗前后牙周局部的临床效果颇为显著,随着
目的:以大鼠神经母细胞瘤细胞(B35)OGD(Oxygen-Glucose Deprivation Model)模型为基础,通过采用血清药理学方法,观察经方补阳还五汤含药血清对OGD损伤所致细胞凋亡及其对凋亡
生物膜是细菌菌群及其分泌的胞外物质聚集在一起所形成的膜状结构。与处于游离状态的细菌相比,形成生物膜的细菌对环境具有更强的适应性及对抗菌物质具有更高的耐受性。生物
符号消费的本质是一种文化消费,是一种把消费与文化体验挂钩、标榜消费者个人或群体身份认同和社会地位的一种消费方式。本文从符号消费现象形成的时代原因、心理机制、消费
丰台机务段“毛泽东号”机车组于1946年10月30日命名,在67年多的奋斗实践中,形成了诸多优良传统,凝练了以“报效祖国、忠于职守、艰苦奋斗、永当先锋”为内涵的“毛泽东号”精神
报纸
目的探讨肿瘤专科医院手卫生持续质量改进(CQI)的有效方法,不断提高手卫生管理质量,为持续规范手卫生的管理提供指引。方法手卫生监控与质量改进小组全面收集手卫生管理信息,
新加坡与马来西亚是东南亚马来半岛上彼此相邻的两个国家,历史上都曾经是英国殖民地,在上世纪50年代后期独立,两国曾在1963年一度合并筹组“马来西亚联邦”,直至1965年新加坡脱离
报纸
新时期以来,山东文学发展势头强劲,涌现了一大批优秀的作家,比如莫言、张炜、尤凤伟等,他们为山东文学的发展提供了巨大的示范作用。在他们的带领下,王秀梅、艾玛、常芳、东
我国电力机车的发展有目共睹,而单相PWM整流器凭借其稳定的直流母线电压输出、有效地控制交流侧输入电流的相位、尽量少地引入电流谐波、能量的双向流动等特点在电力机车大功率整流器的研究和应用中成为了焦点。本文结合单相PWM整流器的开关模式,建立单相PWM整流器的状态空间模型,并分析其稳定性。在分析传统直接电流控制和间接电流控制方案的基础上,结合各个环节的数学模型,给出了控制器参数的设计方法。并进一步分析