论文部分内容阅读
模式分类问题广泛存在于故障诊断、语音识别、机器视觉、文本检索、图像处理和生物信息学等应用领域。在获取分类任务的相关数据信息以后,模式分类的主要目标是利用模式分类算法把待识别的对象尽可能地分配到正确的类别中。然而,实际应用中的高维和噪声数据始终制约着现有模式分类算法的广泛应用。此外,生物信息学领域中的蛋白质结构预测也要求设计新的算法以便有效地利用已知的蛋白质结构信息。 近邻模型是机器学习领域中常用的分类模型之一,由于其具有非线性和可扩展性的优点,已经在图像检索、目标识别和机器视觉等领域获得了成功的应用。基于近邻模型,本文对判别特征选择、判别距离度量学习和判别原型学习以及生物信息学应用领域的蛋白质二级结构预测四个方面开展了研究,主要内容如下: 在判别特征选择方面,提出了两个特征选择算法:近邻成分特征选择和局部Fisher特征选择。近邻成分特征选择是基于最近邻的特征加权算法,它通过梯度上升技术,最大化具有正则化项的近似留一法分类精度学习特征权值。该算法对训练数据的分布没有作任何参数假定并且可以自然地扩展到多类问题。实验结果表明,近邻成分特征选择算法可以有效地处理高维数据的特征选择,并且对不相关特征数目的增长不敏感。局部Fisher特征选择通过梯度优化技术,最大化训练数据的局部类间散布同时最小化训练数据的局部类内散布,并在优化过程中利用L1L∞正则化项在块层次上稀疏化不相关或冗余特征对应的参数向量。UCI数据集上的实验结果表明该方法能有效地捕获特征间的相关性。 在判别距离度量学习方面,提出了两个基于近邻模型的距离度量学习算法:命中丢失成分分析和快速近邻成分分析。命中丢失成分分析首先根据训练样本的最近命中(来自同样类别的最近邻)和最近丢失(来自不同类的最近邻)定义间隔,然后通过同时最大化间隔和最小化每个训练样本和它的最近命中的距离学习距离度量。实验结果表明,该方法可以有效地处理数据可视化、全秩距离度量学习和低秩距离度量学习。快速近邻成分分析采用局部概率分布模型确定训练样本的参考点,避免了基于全部训练数据随机选择参考点,有效地减少了学习距离度量的计算代价。通过引入核机制,其被进一步扩展到非线性度量学习。实验结果表明,快速近邻成分分析在分类精度和训练速度方面均优于近邻成分分析。 在判别原型学习方面,针对最近邻规则较高的存储和计算要求,提出了一个基于训练数据集自动构造原型并学习距离度量的大间隔最近原型分类算法。该方法首先利用欧氏距离的K均值聚类算法确定每类样本的原型,然后通过最小化目标损失函数学习输入空间的线性变换。参数矩阵可以通过求解一个凸半定规划问题获得,因此不存在局部极小值问题。实验结果表明,该方法能有效地改进最近邻的分类性能。 在蛋白质二级结构预测方面,研究了二级结构的单序列预测、多序列预测和组合预测。针对单序列预测,提出了一种新的基于高斯先验最大熵模型的蛋白质二级结构预测算法。针对多序列预测,基于大间隔最近邻模型和大间隔最近原型分类模型提出了两个二级结构预测算法。第一个算法首先基于PSSM谱构造特征向量,然后调用大间隔最近邻模型学习一个用于K近邻分类的Mahalanobis距离,最后利用基于能量的规则进行蛋白质二级结构预测。第二个算法是大间隔最近原型分类算法在蛋白质二级结构预测上的直接应用。实验结果表明两种算法均获得了较好的预测精度,明显优于以前的近邻算法。针对组合预测,提出了一个组合同源和非同源信息进行蛋白质二级结构预测的快速近邻算法。该方法首先利用良定义的链表结构构造包含二级结构频率信息的统计词典集,然后组合统计词典和PSSM矩阵快速地生成邻居列表,最后利用新的基于知识的规则指派二级结构。实验结果表明,该方法能够利用不断增长的蛋白质结构数据改进二级结构的预测精度,并且优于组合预测算法 Porter_H、PROTEUS和CDM。