非监督特征约简算法的研究与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户：ZZ2077

【摘要】

：

在机器学习、模式识别、信息检索和生物信息等很多领域人们都面临海量的高维数据,由此引发维数灾难问题。特征约简旨在解决上述难题,其任务是将原始特征空间映射到一个低维空

【作者】

：

张鹏

【机构】

：

天津大学

【出处】

：

天津大学

【发表日期】

：

2008年期

【关键词】

：

非监督学习特征约简特征抽取特征选择流形学习局部线性镶嵌测度不变性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在机器学习、模式识别、信息检索和生物信息等很多领域人们都面临海量的高维数据,由此引发维数灾难问题。特征约简旨在解决上述难题,其任务是将原始特征空间映射到一个低维空间,以期在降低维数的同时,保持原空间的重要信息。特征约简可大致分为特征抽取和特征选择两部分。特征抽取试图获得原始特征的线性或非线性组合,以期去除特征间的冗余性;特征选择试图选择与学习任务最相关的特征,以期去除噪声特征。由于在非监督背景下缺少类别信息,使得特征约简尤其是特征选择任务,变得异常困难。流形学习是特征抽取的一个重要分支。本文提出了一种局部线性镶嵌(Locally Linear Inlaying, LLI)方法。LLI是一种流形学习方法,该类方法假设原始高维空间分布在或近似分布在一个低维非线性流形之上。LLI利用分而治之的策略,将高维空间中的各个线性区域进行局部嵌入和全局拼接。该算法可以在很大程度上改善流形学习算法的时间复杂度和鲁棒性,具体表现在:第一,LLI的时间复杂度与样本点数目成线性关系;第二,LLI可以适用于任何非凸的数据集;第三,LLI有很高的鲁棒性,能够很好的工作于存在异质噪声或同质噪声的数据集。基于仿真数据和真实人脸数据的实验证实了LLI的上述特点。针对特征选择任务,因为原特征集中存在大量噪声特征,这些特征会严重干扰合理的测度(即中肯的测度),使得特征空间变得不中肯。当前大部分非监督特征选择算法因为缺少测度不变的性质,在强非中肯空间中其效果会很差。本文提出了一种处理非中肯空间的测度不变性模型,该模型基于以下重要观察:如果指导非监督特征选择的统计量在测度缩放时保持不变,那么特征选择模型的解也将是不变的;如果这个模型在一个中肯的特征空间中可行,它也将在由于测度缩放后得到的非中肯空间中可行。本文从理论上证明了该模型的测度不变性,基于仿真数据和真实文本数据的实验结果证实了该模型的有效性。

其他文献

消息中间件中分布事务处理技术的研究

现代信息技术的发展为教育信息化提供了新的工具和手段。然而,在教育信息化的过程中,信息孤岛现象日益严重,各业务系统间逐步构成了一个庞大的异构环境。而且,大量信息重复出

学位

消息中间件事务处理教育信息化信息孤岛信息交换校园信息化高等学校

非易失性存储器的能耗研究

新型可字节寻址的非易失性存储器(NVM),例如相变存储器(Phase Change Memory,PCM)在低能耗、高密度、就地更新数据等方面拥有很多的优点,但是由于NVM具有读写不对称性特点,即

学位

非易失性存储器相变存储器写能耗辅助存储器

针对非均匀密度环境的DBSCAN自适应聚类算法的研究

大数据时代的到来,对人们的生产、生活以及工作和思维都产生着巨大的影响。在海量数据面前,如何将其转换为有价值的信息和知识,是当前一个十分重要且有意义的课题。通过对数

学位

DBSCANCEI非均匀密度自适应密度层次划分

一种两级代码缓存框架设计与测评

为了解决指令集兼容问题，以及提高程序的执行速度，研究人员开发了跨指令集虚拟机系统、动态二进制翻译系统、动态二进制优化系统以及一些模拟器系统。代码缓存管理是上述系统设

学位

两级代码代码缓存管理替换算法性能测评

基于易混音素对的置信度计算方法的研究

随着大规模连续语音识别的广泛应用,语音的置信度在语音识别技术中发挥了越来越重要的作用。本文对于目前的基于网格的语音识别置信度算法进行了总结和改进,并将改进后的方法

学位

易混音素对置信度计算语音识别语音置信度脚本确认投票排序算法语音数据库

基于FPGA的指纹图像增强算法研究

指纹图像增强是指纹识别中的关键技术之一，目前，指纹图像增强算法多采用软件或者是DSP实现。用软件实现图像增强算法存在处理速度慢、难以实现实时处理等问题；而采用DSP实现时，又

学位

指纹图像图像增强增强算法指纹识别可编程片上系统图像滤波现场可编程门阵列

基于Cell/B.E.的分布式眼控鼠标系统研究

眼控鼠标是一种计算机辅助输入设备,可以帮助上肢残疾人士用双眼代替手操作计算机鼠标。在眼控鼠标中高精度的双眼定位算法需要大量计算,难以适应实时控制需要。本文针对这一

学位

Cell/B.E.人眼定位向量计算SPEPPE

二元判断图BDD及其JAVA实现的应用与研究

在数字控制系统、计算机辅助设计(CAD),计算机辅助测试(CAT)、人工智能(AI)以及可编程控制器等领域的许多问题都可以表示成一系列关于布尔函数的运算,这些运算有赖于布尔函数

学位

BDD模型检测JaVaBDDCTL状态

基于超曲面的图像自动分类

在当今社会,图像文件增长速度惊人,如何对这些文件进行有效的分类和管理成为越来越受关注的问题,这一问题的应用背景也很广,包括阻止某些不健康的图片传输,对大量图片的自动

学位

超曲面分类器图像分割兴趣块特征向量层次框架图像库

Deep Web数据集成中的结果抽取及实体识别研究

随着Internet的发展和Web上信息的快速增加,人们越来越多地依赖搜索引擎来查找所需信息。目前的主流搜索引擎主要依靠爬虫爬行网页上的链接来抓取网页,因此基本上只索引了互

学位

Deep Web数据抽取实体识别

非监督特征约简算法的研究与应用

其他学术论文