高维数据特征提取方法研究与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:redfox1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据特征提取(Feature Extraction)是数据挖掘的一个重要数据预处理过程.由于当前出现了越来越多的"高维"数据,如多媒体数据、蛋白质数据等,直接对这些数据进行操作的计算量非常大,不仅要耗费大量的时间,而且其运算量往往会超出机器的容许范围.特征提取是从高维数据的原始特性中提取出较少的一些特征,用来表示这些数据.这样,就能够大大降低对它们进行诸如聚类、可视化/最近邻搜索等操作的计算复杂度.该文首先分析了当前具有代表性的三种特征提取算法——Fastmap算法、Bourgain算法及Cofe算法,并对它们各自的优、缺点及计算复杂度等方面进行了比较.其次,该文提出了一种基于数据类别数及各类代表元素等启发式信息的高维数据特征提取算法.该算法克服了Bourgain算法不具有现实可行性及Cofe算法降维效果不佳的缺点,对于M类高维数据、可使数据的维数降至「logM」.该算法可直接适用于已知数据类别数及各类数据代表点的情况.再次,为了使该算法具有更广泛的实用性,该文又提出了基于聚类算法的参考点选取方法,针对实际高维数据的特征提取实验结果表明,该文提出的算法具有很好的特征提取效果及较低的时间复杂度.最后,针对MDS方法在特征提取时不具有增量性的缺陷,该文提出了一种基于神经网络的增量式方法.该方法首先使用MDS方法对训练集进行特征提取,然后训练BP网络,再使用训练结果对其余数据进行增量式处理.
其他文献
当前的网络应用中,C/S模型是主流。而随着分布式计算的深化和网络技术的进一步发展,对等式网络模型(P2P)开始受到重视,并成为最近的技术热点之一。 P2P模型与C/S模型相比,最大的
随着网络技术的发展,传统图书馆面临巨大的挑战,如何适应网络环境,满足人们日益增长的对信息资源的需求,成为图书情报界乃至信息技术领域的一大研究热点。 本文对我馆的自动化
该文阐述了CMM和软件配置管理理论及其对软件配置管理工具的内在要求,分析了现有配置管理工具的发展现状和不足,并结合东软CMM5在软件开发过程中对配置管理工具的实际需求,提
该文研究的主要目标是利用薛教授在开发循环不变式的新策略中提出的递归定义思想,探索一类递归定义问题的循环不变式开发技术,并应用于涉及组合数据结构的复杂算法程序的形式
随着软件系统在各个领域的深入和渗透,软件质量已经成为软件产品最重要的要素,只有高质量的软件产品才能赢得市场和消费者的欢迎.而软件测试是保证软件质量的最重要的手段之
Java语言受欢迎的原因之一就是它的平台无关性,但这造成Java字节码解释执行速度较慢。Java字节码部分计值可以缓解Java语言平台无关性和字节代码解释执行速度之间的矛盾,自动对
本文首先研究了保密通信的基本技术,譬如对称加密、非对称加密、密钥协商、安全认证等等。然后,本文详细分析了移动通信网的特点,在此基础上阐述了其中的安全问题,主要以GSM为代
HTML5混合应用以其优异的跨终端、快速迭代的能力正在被越来越多的移动应用开发者使用,但是由于混合应用使用Web语言开发,同时拥有原生应用的能力,导致其接触到的数据源更多,更容
随着计算机网络的快速发展,网络管理越来越成为人们所关心和研究的热门课题.简单网络管理协议SNMP作为TCP/IP协议簇的一部分,已成为网络管理事实上的标准,有着极为广泛的应用
信息设备会在工作过程中产生不同程度的电磁泄漏,这种电磁泄漏信号中可能含有信息设备处理的敏感信息,通过特定的设备和信号处理手段可实现对电磁泄漏信号的截获并还原出其中的