基于近邻模型的判别学习算法研究及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tank1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式分类问题广泛存在于故障诊断、语音识别、机器视觉、文本检索、图像处理和生物信息学等应用领域。在获取分类任务的相关数据信息以后,模式分类的主要目标是利用模式分类算法把待识别的对象尽可能地分配到正确的类别中。然而,实际应用中的高维和噪声数据始终制约着现有模式分类算法的广泛应用。此外,生物信息学领域中的蛋白质结构预测也要求设计新的算法以便有效地利用已知的蛋白质结构信息。  近邻模型是机器学习领域中常用的分类模型之一,由于其具有非线性和可扩展性的优点,已经在图像检索、目标识别和机器视觉等领域获得了成功的应用。基于近邻模型,本文对判别特征选择、判别距离度量学习和判别原型学习以及生物信息学应用领域的蛋白质二级结构预测四个方面开展了研究,主要内容如下:  在判别特征选择方面,提出了两个特征选择算法:近邻成分特征选择和局部Fisher特征选择。近邻成分特征选择是基于最近邻的特征加权算法,它通过梯度上升技术,最大化具有正则化项的近似留一法分类精度学习特征权值。该算法对训练数据的分布没有作任何参数假定并且可以自然地扩展到多类问题。实验结果表明,近邻成分特征选择算法可以有效地处理高维数据的特征选择,并且对不相关特征数目的增长不敏感。局部Fisher特征选择通过梯度优化技术,最大化训练数据的局部类间散布同时最小化训练数据的局部类内散布,并在优化过程中利用L1L∞正则化项在块层次上稀疏化不相关或冗余特征对应的参数向量。UCI数据集上的实验结果表明该方法能有效地捕获特征间的相关性。  在判别距离度量学习方面,提出了两个基于近邻模型的距离度量学习算法:命中丢失成分分析和快速近邻成分分析。命中丢失成分分析首先根据训练样本的最近命中(来自同样类别的最近邻)和最近丢失(来自不同类的最近邻)定义间隔,然后通过同时最大化间隔和最小化每个训练样本和它的最近命中的距离学习距离度量。实验结果表明,该方法可以有效地处理数据可视化、全秩距离度量学习和低秩距离度量学习。快速近邻成分分析采用局部概率分布模型确定训练样本的参考点,避免了基于全部训练数据随机选择参考点,有效地减少了学习距离度量的计算代价。通过引入核机制,其被进一步扩展到非线性度量学习。实验结果表明,快速近邻成分分析在分类精度和训练速度方面均优于近邻成分分析。  在判别原型学习方面,针对最近邻规则较高的存储和计算要求,提出了一个基于训练数据集自动构造原型并学习距离度量的大间隔最近原型分类算法。该方法首先利用欧氏距离的K均值聚类算法确定每类样本的原型,然后通过最小化目标损失函数学习输入空间的线性变换。参数矩阵可以通过求解一个凸半定规划问题获得,因此不存在局部极小值问题。实验结果表明,该方法能有效地改进最近邻的分类性能。  在蛋白质二级结构预测方面,研究了二级结构的单序列预测、多序列预测和组合预测。针对单序列预测,提出了一种新的基于高斯先验最大熵模型的蛋白质二级结构预测算法。针对多序列预测,基于大间隔最近邻模型和大间隔最近原型分类模型提出了两个二级结构预测算法。第一个算法首先基于PSSM谱构造特征向量,然后调用大间隔最近邻模型学习一个用于K近邻分类的Mahalanobis距离,最后利用基于能量的规则进行蛋白质二级结构预测。第二个算法是大间隔最近原型分类算法在蛋白质二级结构预测上的直接应用。实验结果表明两种算法均获得了较好的预测精度,明显优于以前的近邻算法。针对组合预测,提出了一个组合同源和非同源信息进行蛋白质二级结构预测的快速近邻算法。该方法首先利用良定义的链表结构构造包含二级结构频率信息的统计词典集,然后组合统计词典和PSSM矩阵快速地生成邻居列表,最后利用新的基于知识的规则指派二级结构。实验结果表明,该方法能够利用不断增长的蛋白质结构数据改进二级结构的预测精度,并且优于组合预测算法 Porter_H、PROTEUS和CDM。
其他文献
计算机技术、通信技术和传感器技术的发展,极大的推动了无线传感器网络的快速发展。成本低、部署方便、感知能力强、自组织等特性,使得无线传感器网络在军事、环境、医疗科学
相似检索有着广泛的应用,特别是在知识产权保护和信息检索领域。而本文着重介绍了相似检索在抄袭检测这一领域的应用。   学生作业抄袭检测的应用场景下,相似检索系统须具备
文本蕴涵的概念起源于逻辑学,同时是语言学,特别是语义研究中的重要课题。近几年,随着人工智能研究的进步,特别是计算机领域中自然语言处理领域的进步,使得文本蕴涵成为计算
本文首先全面概述了隐私保护的相关技术及应用领域,系统分析了目前国内外一些研究机构所取得的进展。针对目前隐私保护挖掘算法所存在的缺陷,例如数据保护程度不高,事务数据
现在的数字图书馆不能为用户提供有效的个性化服务,为了向用户提供更加优质的因人而异的一对一服务,个性化推荐技术便应运而生,成为数字图书馆领域重要的研究内容并得到研究
组播是下一代Internet应用的重要支撑技术,而组播的安全性是成功进行组通信所必需解决的重要课题之一。目前,人们已提出多种密钥管理方案,并采用不同的组密钥更新方案来处理
随着生物医疗大数据的不断增长,用户对生物医疗大数据的搜索需求也随着具体生物问题的不同而蕴含着特定的语义需求。传统的搜索引擎如Google、百度等通用搜索引擎并不能够有
心脏是人体最重要的器官之一,作为心脏病的多发部位——心室,其生理病理特征的研究具有重要意义。心室中重要的传导系统,包括左、右希氏束支和浦肯野纤维,统称为浦肯野系统。受现
新浪微博目前是国内最大的微博服务平台,微博流中包含着数量众多的,各个领域的新闻事件。目前新浪上有各种各样的带标签的话题事件,已有很多的研究针对于微博上的话题检测,但
签名鉴别是一种,新兴的基于生物特征的身份识别技术,由于其方便、可靠、从笔迹中提取信息不侵犯隐私而被人们普遍接受,在商务、金融、司法、保险等众多领域中有着广泛的应用,