论文部分内容阅读
随着大数据时代的发展,处理图像、音频、视频等数值类机器学习算法日渐兴盛。而其中解释性的研究工作,因暂时没有摆脱传统基于规则算法的限制,逐渐在研究浪潮中趋于弱势。对于一些复杂问题而言,规则与解释性复杂烦扰,难以理顺,机器学习算法尽显其优势。在机器学习热潮高涨的进程中,基于规则的算法和解释性一度被推到了机器学习的对立面,以至于产生过“大数据不需要因果关系”的说法。然而,随着人工智能的发展,和人们对智能时代的呼唤,大数据分析发展的必然方向将会是智能数据分析。届时,解释性将会是对同一数据做出不同选择的智能因素之一,脱离解释性的数据分析只是一时之举。当一些机器学习方法区域成熟稳定之后,其发展瓶颈必然会在解释性方向。因此,在本文中,我们提出了解释性数据分析的想法,将解释性作为数据分析的基础,将纯数值计算方式作为辅助的必要手段。概括说来,本文提出的解释性是指对于数据和问题本身的理解,是对分析和解决问题方案的描述,可以分为数据解释性、语义解释性和逻辑解释性。对于具体模型而言,其数学基础即为数学解释性;语义解释性是指利用数据特征所包含的语义对模型进行方向性调整和改进;而逻辑解释性即为利用领域知识对特征和数据之间的逻辑关系加以分析和利用,结合数学解释性与语义解释性,平衡数据之间和各个解释性之间矛盾,进一步细化结果的技术。为了对解释性数据分析做出探索性研究,本文从数据输入,模型处理和输出挖掘三个阶段,对解释性数据分析的全过程进行了尝试。在数据输入阶段,本文分别对数据矩阵的行与列的代表性问题进行研究:即不平衡数据问题和主成分分析问题。模型处理阶段和输出挖掘阶段需要在特定的应用领域完成,本文选择了犯罪学领域,一方面因其具有关系人民生命财产安全的重要意义,另一方面因为其专业领域需要较强的解释性因素。在具体模型改进方面,本文针对两种具体的循环神经网络结构进行解释性数据分析改进。在输出挖掘方面,本文也针对经典的挖掘方式,进行解释性数据分析改进,得到了更为精细的犯罪模式。本文的主要贡献包括:1.解释性不平衡数据分析方法:本文研究了不平衡数据的过采样技术,借鉴生成对抗网络中生成对抗的博弈思想,在解释性的基础上提出了生成对抗线性模型。本文使用对数几率回归线性模型取代生成对抗网络中的神经网络模型,大大提高了训练效率。与生成对抗网络不同,我们使用生成对抗博弈思想的目的不在于生成数据,而在于对分类线的调整。生成对抗网络只学习输入的真实数据,即只对一类数据学习,而我们在解释性的指导下,同时引入多数类和少数类样本进行训练。从实验结果看,我们的模型处理的输入数据取得了更好的分类效果。2.解释性主成分分析方法:本文研究了主成分分析方法及其主要改进算法,在现有主成分分析方法的基础上,我们融入了解释性数据分析方法。把以数值数据计算为主的方法,改进为以解释性为基础,数据计算为辅助参数的方法。经过多个不同原理分类器的检验,以及不同角度实验的充分测试,我们的方法选出的主要成分比现有的方法具有更好的分类表现。3.解释性局部连接的循环神经网络:本文研究了基于时间序列的定量犯罪预测,提出了交织时间序列的思想,用于处理不同时间间隔的时间序列,而不必进行重采样。交织时间序列的思想是指犯罪案件是在多条时间序列交织汇聚的时间点发生的,作用结果为多个效果的叠加,而与时间序列本身的间隔无关。在这个思想的实现上,以解释性为基础,采用了局部连接的循环神经网络:长短时记忆网络和门结构循环单元网络。在真实世界犯罪数据的检验下,本模型对犯罪事件的定量预测高于对比的时间序列模型和没有解释性结构的循环神经网络模型。4.解释性结式线索犯罪模式挖掘技术:本文研究了邻近重复犯罪现象的模式挖掘问题。邻近重复犯罪现象是犯罪学中的一个重要问题,即在犯罪案件发生之后,邻近地区会存在类似案件重复发生的现象。在解释性的基础上,本文提出了结式线索技术,即利用解释性来制定模式挖掘的算法细节和使用方案,进而纵向递进挖掘线索的方法。本文使用该技术分析了不同的地理区域和不同犯罪类型之间的细粒度犯罪模式,对打击和挖掘犯罪组织,警力部署与合作等方面提出了合理的决策支持。