非监督特征约简算法的研究与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:ZZ2077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习、模式识别、信息检索和生物信息等很多领域人们都面临海量的高维数据,由此引发维数灾难问题。特征约简旨在解决上述难题,其任务是将原始特征空间映射到一个低维空间,以期在降低维数的同时,保持原空间的重要信息。特征约简可大致分为特征抽取和特征选择两部分。特征抽取试图获得原始特征的线性或非线性组合,以期去除特征间的冗余性;特征选择试图选择与学习任务最相关的特征,以期去除噪声特征。由于在非监督背景下缺少类别信息,使得特征约简尤其是特征选择任务,变得异常困难。流形学习是特征抽取的一个重要分支。本文提出了一种局部线性镶嵌(Locally Linear Inlaying, LLI)方法。LLI是一种流形学习方法,该类方法假设原始高维空间分布在或近似分布在一个低维非线性流形之上。LLI利用分而治之的策略,将高维空间中的各个线性区域进行局部嵌入和全局拼接。该算法可以在很大程度上改善流形学习算法的时间复杂度和鲁棒性,具体表现在:第一,LLI的时间复杂度与样本点数目成线性关系;第二,LLI可以适用于任何非凸的数据集;第三,LLI有很高的鲁棒性,能够很好的工作于存在异质噪声或同质噪声的数据集。基于仿真数据和真实人脸数据的实验证实了LLI的上述特点。针对特征选择任务,因为原特征集中存在大量噪声特征,这些特征会严重干扰合理的测度(即中肯的测度),使得特征空间变得不中肯。当前大部分非监督特征选择算法因为缺少测度不变的性质,在强非中肯空间中其效果会很差。本文提出了一种处理非中肯空间的测度不变性模型,该模型基于以下重要观察:如果指导非监督特征选择的统计量在测度缩放时保持不变,那么特征选择模型的解也将是不变的;如果这个模型在一个中肯的特征空间中可行,它也将在由于测度缩放后得到的非中肯空间中可行。本文从理论上证明了该模型的测度不变性,基于仿真数据和真实文本数据的实验结果证实了该模型的有效性。
其他文献
现代信息技术的发展为教育信息化提供了新的工具和手段。然而,在教育信息化的过程中,信息孤岛现象日益严重,各业务系统间逐步构成了一个庞大的异构环境。而且,大量信息重复出
新型可字节寻址的非易失性存储器(NVM),例如相变存储器(Phase Change Memory,PCM)在低能耗、高密度、就地更新数据等方面拥有很多的优点,但是由于NVM具有读写不对称性特点,即
大数据时代的到来,对人们的生产、生活以及工作和思维都产生着巨大的影响。在海量数据面前,如何将其转换为有价值的信息和知识,是当前一个十分重要且有意义的课题。通过对数
为了解决指令集兼容问题,以及提高程序的执行速度,研究人员开发了跨指令集虚拟机系统、动态二进制翻译系统、动态二进制优化系统以及一些模拟器系统。代码缓存管理是上述系统设
随着大规模连续语音识别的广泛应用,语音的置信度在语音识别技术中发挥了越来越重要的作用。本文对于目前的基于网格的语音识别置信度算法进行了总结和改进,并将改进后的方法
指纹图像增强是指纹识别中的关键技术之一,目前,指纹图像增强算法多采用软件或者是DSP实现。用软件实现图像增强算法存在处理速度慢、难以实现实时处理等问题;而采用DSP实现时,又
眼控鼠标是一种计算机辅助输入设备,可以帮助上肢残疾人士用双眼代替手操作计算机鼠标。在眼控鼠标中高精度的双眼定位算法需要大量计算,难以适应实时控制需要。本文针对这一
在数字控制系统、计算机辅助设计(CAD),计算机辅助测试(CAT)、人工智能(AI)以及可编程控制器等领域的许多问题都可以表示成一系列关于布尔函数的运算,这些运算有赖于布尔函数
在当今社会,图像文件增长速度惊人,如何对这些文件进行有效的分类和管理成为越来越受关注的问题,这一问题的应用背景也很广,包括阻止某些不健康的图片传输,对大量图片的自动
随着Internet的发展和Web上信息的快速增加,人们越来越多地依赖搜索引擎来查找所需信息。目前的主流搜索引擎主要依靠爬虫爬行网页上的链接来抓取网页,因此基本上只索引了互