基于改进PCA和LDA的特征提取方法

来源 :河北大学 | 被引量 : 0次 | 上传用户：cuilu206

【摘要】

：

在机器学习和模式识别领域,主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)及其相关的改进方法是常用的维数约减方法,它们

【作者】

：

安磊磊

【机构】

：

河北大学

【出处】

：

河北大学

【发表日期】

：

2015年期

【关键词】

：

核主成分分析线性判别分析样本选取特征提取异常检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在机器学习和模式识别领域,主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)及其相关的改进方法是常用的维数约减方法,它们可以有效地降低数据集的维数,避免高维数据集带来的维数灾难问题。然而,在实际应用中,两种方法均存在不足,如基于L1范数的核主成分分析(KPCA-L1)在处理较大规模的数据集时,建模速度将会比较慢;传统的LDA使用基于L2范数的距离度量,对噪声数据比较敏感。为了提高KPCA-L1的建模速度、增强LDA的抗噪声能力,本文对KPCA-L1和LDA两种特征提取方法开展了研究。1.提出了基于样本选取和加权KPCA-L1的异常检测方法。所提方法首先从训练集中选取具有代表性的样本子集,然后为样本子集中的样本赋予权重,用带有权重的样本子集构造加权KPCA-L1。与KPCA-L1相比,所提方法有效地减小了训练集的规模,加快了特征提取模型的建模速度,改善了KPCA-L1算法的更新方法,并在一定程度上加快了异常检测的速度。在人工数据集和标准数据集上的实验结果表明,在保证异常检测准确率的同时,所提方法比KPCA-L1具有更快的处理速度。2.提出了基于Lp范数的线性判别分析(LDA-Lp)算法。所提方法通过最大化基于Lp范数距离度量的类间散度与类内散度的比例,利用梯度上升法与贪婪算法构造一组局部最优的映射向量。与LDA相比,所提方法可以处理基于Lp范数(带有任意p值)的距离度量,增强了LDA算法的泛化能力。在人工数据集和标准数据集上的实验表明,所提方法具有更好的鲁棒性。

其他文献

基于网络数据库的教学质量测评系统的开发

教学质量测评是高校的一项常规工作,开展这项工作经历了人工处理与计算机处理两个不同阶段。利用人工开展这项工作存在工作周期长、工作量大、统计信息准确率低等一系列问题,

学位

面向对象对象-关系映射数据库UML平衡修正算法

蚁群聚类算法在WEB使用挖掘中的应用研究

随着Internet在全球范围的迅速普及和应用，Web信息量正以惊人的速度增长。如何快速、有效地发现有用的信息资源已成为急待解决的问题。Web挖掘作为一种以从Web的海量信息中挖

学位

Web使用挖掘蚁群聚类算法方向相似性反应阈值增量

虚拟训练仿真中人的运动控制研究

虚拟训练仿真是指基于虚拟现实技术的训练仿真,是实际训练过程在计算机上的映射。随着虚拟现实技术的日趋成熟,将虚拟人“嵌入”虚拟训练仿真的环境中去,作为受训人员在虚拟

学位

虚拟训练仿真虚拟人多刚体系统运动控制技术逆向运动学

分布式入侵检测系统中的报警融合

随着Internet的发展,计算机网络安全成为越来越受人们关注的问题。为了增强计算机网络的安全性能,人们采用了多种安全技术,包括加密、身份认证、访问控制等,随着入侵检测技术

学位

网络安全入侵检测报警融合报警聚合报警关联

数据集成平台中XML查询引擎的实现

随着企业的发展,信息化建设中面临着异构数据源数据集成的需求,XML作为一种结构化语言,能对各种数据源的信息内容进行标记,包括结构化和半结构化文档、关系数据库和对象库。

学位

数据集成XQueryXML关系数据

全文索引引擎Lucene的研究及其手机中的应用实现

本文在仔细分析搜索引擎市场和WAP市场的发展趋势后,把搜索引擎和WAP这两个非常具有研究价值的应用方向结合起来,提出了一种具有市场发展潜力的实际应用。对开源搜索引擎Luce

学位

LuceneWAPHTMLWML搜索引擎

不确定规划中的扩展目标语义比较和观测信息约简

不确定规划是目前人工智能研究领域的一个热点。在完全可观察性的条件下对扩展目标作规划，以及在完全可观察性(或部分可观察性)的条件下对可达性目标求强规划解(简称强解)是其

学位

扩展目标强规划解完全可观察性部分可观察性不确定规划

具有纠错特性的指令统计软件水印算法研究

计算机软件是一种知识密集型的商品,在开发过程中需要投入巨大的人力物力,是开发人员智慧和劳动的结晶。软件的发展推动了计算机的普及,也促进了社会的进步,可是盗版问题一直

学位

软件水印纠错编码指令特征鲁棒性

多代理媒体服务网络的研究与设计

随着互联网的发展和多媒体服务的普及,带宽瓶颈的问题成为网络多媒体应用领域的主要矛盾。为解决带宽问题,内容分发网络技术和对等网络技术在近几年被提出,一定程度上有效的

学位

多媒体应用多点服务内容分发网络对等网络访问分布统计模型资源分发主动性负载平衡

基于数据挖掘的信用卡交易风险检测研究

信用卡作为一种全新的支付手段和信用工具，已经成为众多商业银行竞相推出的产品，经营信用卡业务有高收益，同时也伴随着高风险。随着我国WTO的加入，电子商务的发展，信用体系和制度

学位

信用卡数据挖掘神经网络决策树交易风险

基于改进PCA和LDA的特征提取方法

与本文相关的学术论文