基于改进PCA和LDA的特征提取方法

来源 :河北大学 | 被引量 : 0次 | 上传用户:cuilu206
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和模式识别领域,主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)及其相关的改进方法是常用的维数约减方法,它们可以有效地降低数据集的维数,避免高维数据集带来的维数灾难问题。然而,在实际应用中,两种方法均存在不足,如基于L1范数的核主成分分析(KPCA-L1)在处理较大规模的数据集时,建模速度将会比较慢;传统的LDA使用基于L2范数的距离度量,对噪声数据比较敏感。为了提高KPCA-L1的建模速度、增强LDA的抗噪声能力,本文对KPCA-L1和LDA两种特征提取方法开展了研究。1.提出了基于样本选取和加权KPCA-L1的异常检测方法。所提方法首先从训练集中选取具有代表性的样本子集,然后为样本子集中的样本赋予权重,用带有权重的样本子集构造加权KPCA-L1。与KPCA-L1相比,所提方法有效地减小了训练集的规模,加快了特征提取模型的建模速度,改善了KPCA-L1算法的更新方法,并在一定程度上加快了异常检测的速度。在人工数据集和标准数据集上的实验结果表明,在保证异常检测准确率的同时,所提方法比KPCA-L1具有更快的处理速度。2.提出了基于Lp范数的线性判别分析(LDA-Lp)算法。所提方法通过最大化基于Lp范数距离度量的类间散度与类内散度的比例,利用梯度上升法与贪婪算法构造一组局部最优的映射向量。与LDA相比,所提方法可以处理基于Lp范数(带有任意p值)的距离度量,增强了LDA算法的泛化能力。在人工数据集和标准数据集上的实验表明,所提方法具有更好的鲁棒性。
其他文献
教学质量测评是高校的一项常规工作,开展这项工作经历了人工处理与计算机处理两个不同阶段。利用人工开展这项工作存在工作周期长、工作量大、统计信息准确率低等一系列问题,
随着Internet在全球范围的迅速普及和应用,Web信息量正以惊人的速度增长。如何快速、有效地发现有用的信息资源已成为急待解决的问题。Web挖掘作为一种以从Web的海量信息中挖
虚拟训练仿真是指基于虚拟现实技术的训练仿真,是实际训练过程在计算机上的映射。随着虚拟现实技术的日趋成熟,将虚拟人“嵌入”虚拟训练仿真的环境中去,作为受训人员在虚拟
随着Internet的发展,计算机网络安全成为越来越受人们关注的问题。为了增强计算机网络的安全性能,人们采用了多种安全技术,包括加密、身份认证、访问控制等,随着入侵检测技术
随着企业的发展,信息化建设中面临着异构数据源数据集成的需求,XML作为一种结构化语言,能对各种数据源的信息内容进行标记,包括结构化和半结构化文档、关系数据库和对象库。
本文在仔细分析搜索引擎市场和WAP市场的发展趋势后,把搜索引擎和WAP这两个非常具有研究价值的应用方向结合起来,提出了一种具有市场发展潜力的实际应用。对开源搜索引擎Luce
不确定规划是目前人工智能研究领域的一个热点。在完全可观察性的条件下对扩展目标作规划,以及在完全可观察性(或部分可观察性)的条件下对可达性目标求强规划解(简称强解)是其
计算机软件是一种知识密集型的商品,在开发过程中需要投入巨大的人力物力,是开发人员智慧和劳动的结晶。软件的发展推动了计算机的普及,也促进了社会的进步,可是盗版问题一直
随着互联网的发展和多媒体服务的普及,带宽瓶颈的问题成为网络多媒体应用领域的主要矛盾。为解决带宽问题,内容分发网络技术和对等网络技术在近几年被提出,一定程度上有效的
信用卡作为一种全新的支付手段和信用工具,已经成为众多商业银行竞相推出的产品,经营信用卡业务有高收益,同时也伴随着高风险。随着我国WTO的加入,电子商务的发展,信用体系和制度