流形学习算法及其应用研究

被引量 : 0次 | 上传用户:chenbin198718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流形学习方法作为一类新兴的非线性维数约简方法,主要目标是获取高维观测数据的低维紧致表示,探索事物的内在规律和本征结构,已经成为数据挖掘、模式识别和机器学习等领域的研究热点。流形学习方法的非线性本质、几何直观性和计算可行性,使得它在许多标准的toy数据集和实际数据集上都取得了令人满意的结果,然而它们本身还存在着一些普遍性的问题,比如泛化学习问题、监督学习问题和大规模流形学习问题等。因此,本文从流形学习方法存在的问题出发,在算法设计和应用(图像数据与蛋白质相互作用数据)等方面展开了一系列研究工作。首先对流形学习的典型方法做了详细对比分析,然后针对流形的泛化学习和监督学习、表征流形的局部几何结构、构造全局的正则化线性回归模型、大规模数据的流形学习等几个方面进行了重点研究,提出了三种有效的流形学习算法,并和相关研究成果进行了理论与实验上的比较,从而验证了我们所提算法的有效性。全文的主要工作概括如下:(1)在深入研究局部样条嵌入算法(LSE)的基础上,引入明确的线性映射关系,构建平移缩放模型和正交化特征子空间,提出了一种正交局部样条判别投影算法(O-LSDP)。有效解决了原始LSE算法存在的两个主要问题:样本外点学习问题和无监督模式学习问题,从而使该算法能够应用于模式分类问题并显著改善了算法的分类识别能力。在标准人脸数据库上进行实验比较分析,验证了该算法的有效性与可行性。(2)在兼容映射的概念框架下,提出了一种局部多尺度回归嵌入算法(LMDSRE)。LMDSRE算法首先利用局部多维尺度分析(LMDS)构建每个样本点邻域的局部坐标来表示低维流形的局部几何结构,然后拟合正则化的线性回归模型并排列所有的局部等距坐标,从而构建全局唯一的低维坐标。该算法作为一种新的流形学习方法具有局部等距的特点,能够应用于非线性维数约简和数据可视化分析,在六个标准人工数据集和三个实际数据集上的实验结果验证了该方法的有效性。(3)针对ISOMAP算法计算复杂度高的问题,提出了一种快速等距特征映射算法(Fast-ISOMAP)。Fast-ISOMAP算法首先利用最小子集覆盖策略(MSC)从数据集中选择p个Landmark点( p n),从而在构造最短路径距离矩阵时,用p×n距离矩阵D p×n代替了原始的n×n距离矩阵Dn×n,然后运用Landmark MDS算法将所有样本嵌入到低维特征空间。与原始的ISOMAP算法相比,Fast-ISOMAP算法在不显著改变原始ISOMAP算法嵌入性能的条件下,大大提高了算法的计算效率,该算法适合应用于大规模流形学习问题。在标准数据集上的实验结果验证了该算法的有效性。(4)提出了一种鲁棒的基于快速流形嵌入的蛋白质相互作用数据可信度评估与预测新方法。首先通过对蛋白质相互作用数据进行低维流形建模,然后采用快速等距特征映射流形学习方法将蛋白质相互作用数据映射到低维度量空间,从而把蛋白质相互作用数据可信度评估与预测的生物问题转化为低维嵌入空间中数据点之间相似性度量的数学问题,最后根据蛋白质对在低维嵌入空间的相似性度量来构造加权CD-Dist可靠性指数用于评估与预测可信度。在三个由不同高通量实验技术产生的不同规模的酵母蛋白质相互作用数据集上的实验结果表明,基于快速流形嵌入的方法所获得的高可靠性相互作用数据具有更高的功能一致性与细胞组分一致性。据我们所知,本章所提出的方法首次利用了流形学习理论来解决蛋白质相互作用数据可信度的评估与预测问题。该方法有效克服了现有方法需要额外先验信息和对蛋白质相互作用网络稀疏程度敏感的问题,为检测蛋白质相互作用网络中的假阳性与假阴性“噪声”问题提供了一条新的解决途径。
其他文献
文章回顾性分析进行前磨牙或前牙修复的116例患者(116颗患牙)临床资料,其中接受翻瓣即刻牙种植修复的患者58例(58颗患牙,观察组),余58例(58颗患牙,对照组)实施不翻瓣即刻牙种
期刊
新媒体技术在现代教育中的应用,促进了传统教学思维的转型。特别是平板电脑这种plight新型移动终端的使用,使课堂教学更丰富、更互动、更具个性化,并在一定程度上强化了教学
传统上亚麻籽被压榨成亚麻油应用于工业,榨油后的副产物亚麻饼常在家畜日粮中作为蛋白质补充料使用,在养殖业中多用来饲喂反刍家畜.本文首先介绍了 亚麻籽中富含亚麻油、
近年来,随着经济的飞速发展,人们的生活水平不断提高,对供水量的需求呈现快速放大的趋势,由此造成供水用电量猛增,由于公众节能意识的提高和能源价格的节节攀升,利用先进的控
利用反距离加权(IDW)、普通克里格(OK)、样条函数(Spline)、协同克里格(CK)、径向基函数法(RBF)、全局多项式法(GP)、局部多项式法(LP)和"多元回归+残差分析法"(AMMRR)以及改
随着“三网融合”的全面推进,各种融合业务不断涌现,推动了能够承载融合业务的融合终端的发展,智能电视成为继智能手机、平板电脑之后融合终端领域的又一研究热点,受到了科研、运
课外阅读作为提高农村小学生综合素养的重要途径,不仅有利于拓展他们的视野,养成良好的阅读习惯,还有利于健全他们的人格。可是,当前我国农村小学生在课外阅读的过程中,面临
目的:探讨腹部脂肪分布与糖尿病的相关性。方法:将研究对象分为两组,病例组176例,其中Ⅰ型糖尿病92例,Ⅱ型糖尿病84例。对照组为健康体检者50例。分析I型糖尿病、Ⅱ糖尿病及对照组
本文调查了西南林业大学2010级外国语学院68名英语专业学生从专四到专八阶段英语写作中词汇复杂性的发展。以期找到从专四到专八考试接近两年的英语学习中学生写作中词汇发展
纳税会计作为财务岗位中新兴的一员,越来越受到企业的重视,但这种重视往往只存在于对税款核算和缴纳的工作上,学术界少有站在纳税会计职能需要和税法要求角度,系统研究如何规