论文部分内容阅读
研究事物之间隐藏的关联关系有助于理解人类认知和记忆的机理。作为大数据分析的重要基础,数据关联关系的挖掘与发现可以有效的帮助人类在面对复杂海量的数据时,快速找到有价值的内容。目前存在的对于数据关联挖掘的方法多是对已有数据进行统计分析,缺少对未知数据的关联判别作用。而数据中往往存在着很多复杂的非线性关系,构造性的关联指标很难刻画所有的关联关系,因此可以从一个新的角度,学习的角度让机器可以有效的判别对象之间的关联。本文紧随国内外研究前沿,对关联关系的挖掘方法进行了深入的学习和研究,提出从学习的角度进行关联关系挖掘。关联学习作为大数据时代关联关系挖掘的重要方式之一,不同于传统的基于统计学假定的关联强度度量方式,而是利用机器学习理论,通过对已知关联关系的归纳推理学习一个具有判别作用的关联判别器,能够对未知对象之间的关联关系作出准确的判别,目前关联学习研究取得的成果如下:(1)随着信息时代多模态数据的海量增长,在这些数据中找到潜在的隐藏关系变得日益重要。为有效的挖掘数据中复杂的关联关系,本文依据机器学习计算学习理论内容,提出了关联学习理论的基本框架,定义了关联学习的输入空间,特征空间,输出空间,联合概率分布和假设空间;形式化给出了关联学习的数学表达,同时也定义了关联学习准则,为关联学习模型的设计和实现提供了理论基础,为选取最优模型提供了基本准则。(2)根据关联学习理论内容,本文利用动物和水果类别关系识别为例构建了2类关联图像数据集(two class associated image data sets,TAID),构建关联学习模型。模型利用卷积神经网络对图像特征提取的优越性对TAID数据进行关联特征提取,将提取得到的关联特征分别从两个角度softmax函数和K-近邻算法进行关联判别器训练。具体的提出了利用卷积网络设计的关联图像卷积神经网络判别器(associated image convolutional neural network discriminator,AICNN)、通过修改LeNet网络得到的关联图像LeNet判别器(associated image LeNet discriminator,AILeNet)和从传统机器学习方法K-近邻算法角度考虑的关联图像K近邻判别器(associated image K-nearest neighbor discriminator,AIKNN)。这3个关联学习模型中的关联判别器分别在TAID数据集上进行训练测试,测试精度到达85%左右,充分说明了从学习角度进行关联关系挖掘的方法具有合理性以及关联学习提出的可行性。总之,本文从学习的角度创新地提出挖掘关联关系的方法,定义了关联学习的相关概念和形式化表达,基于深度神经网络对特征提取的方法来训练关联学习模型,得到有效的关联判别器对未知关联关系进行判别。科学地说明了关联学习方法的可行性,为关联关系挖掘相关领域的其他研究者提供了一个新的视角,为挖掘未知事物之间潜在的关联关系提供了一个可行的方法。