非均匀分布数据的拉伸与膨胀方法研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:yutianfeipao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据处理技术的发展,使数据挖掘算法所要训练的数据量级呈几何式增长,为了降低计算难度,较多的数据挖掘算法在求解最优化问题时采用迭代式的方法。数据的样本输入以及迭代的搜索步长的合理与否将严重影响迭代求解的效率和精度。不合理的样本输入及搜索步长一方面容易使迭代收敛至局部最优解,另一方面则减缓了收敛的速度,降低了挖掘结果的可靠性。在实际计算中,难以找到较为科学的搜索步长。采用数据标准化方法或一些度量学习方法获取数据的合理样本输入,是提高迭代求解效率和精度的有效手段。然而,在处理非均匀分布数据时,数据标准化方法与度量学习方法都不能有效地降低数据的集中程度。在数据的集中区域,数据点的间距较小,迭代的方式难以准确的区分数据,同时分类面的细小误差就能带来大量的错误识别。基于此,本文结合了一些传统的数据标准化方法和度量学习方法,对扩大非均匀分布数据密集区域数据点间距的方法进行了研究。相关研究围绕对非均匀分布数据进行拉伸与膨胀,扩大数据分布集中区域数据点间距,提高集中区域“分辨率”这一思路展开。主要工作包括:(1)提出一种非均匀分布数据的非线性拉伸方法,方法以一维统计的方式估计数据分布集中程度,根据估计拟合得到拉伸分布集中区域数据点间距的非线性数据标准化函数。(2)提出一种基于Kmeans的数据膨胀方法,利用Kmeans找出欧氏空间中数据聚集的区域,通过数据点到各聚集区域距离方差最小化的方式推动数据点向着空间中数据分布稀疏的区域挪动,扩大聚集区域的数据点间距。为了验证方法的效果,本文通过在多个不同类型的UCI公开数据集上进行实验,分别与一些经典的数据标准化方法和度量学习方法进行比对。实验结果显示,在处理数据分布集中的数据时,两者都能够有效地提高迭代求解的效率与精度。数据非线性拉伸方法能够在数据维数不高及维度相关性不高的情况下更精确的使数据形成一种较为均匀的分布,基于Kmeans的数据膨胀方法在非均匀分布数据维数较多且维度相关性较高不利于逐维拉伸的情况下则更适用。
其他文献
随着计算机和网络技术的发展和普及,计算机化考试的应用越来越广泛。这种考试形式可以相对减少考试环节中的人为主观因素,可以更快捷、更方便、更准确地组织考试工作,并大大
随着互联网技术和计算机技术的发展,P2P技术和网格计算已经发展为一个重要的研究领域,两者都是为了能够很好解决大规模的地理分布的资源共享而兴起的下一代计算技术。其中两者
一个无线传感器网络是由部署在一个地理区域的传感器节点组成的,用来监视物理现象如温度、湿度、地震现象等等。典型的,一个传感器设备由三个基本部分组成:在周围环境获得数据
在现代企业中,由于磁盘损坏导致的数据丢失或者访问中断等,都可能给企业带来无法挽回的损失,数据的容灾备份在信息化时代变得日益重要。容灾备份系统在一定程度上较好保证了
数据挖掘(Data Mining)是近几年来发展起来的一门新兴的数据库技术,它是按照既定的业务目标,对大量的数据进行探索和分析,从中提取潜在的、隐含的、有价值的知识,并进一步将其模
全局优化问题几乎应用于每一个学科,工程领域和业务中。例如,工程师要为设计的汽车提供最佳的性能。为了实现这一目标,需要优化汽车的配置参数。最佳参数配置的查找就属于全
随着网络的不断发展,特别是移动互联网和物联网,网络已成为生活不可或缺的一部分。伴随网络发展而来的是,网络安全、服务质量和网络管理等一些列相关问题日益突出。如果不能
随着Web服务的大量涌现和Web服务研究和应用的不断深入,如何自动、准确、高效的进行服务的发现,已经成为Web服务研究中的热点和难点。由于Web服务缺乏语义描述,传统的基于关
随着高速网络环境的日益普及,传统网络入侵检测系统(Network Intrusion DetectionSystem,NIDS)检测海量网络数据报文时普遍存在检测效率不高、处理能力不足及丢包率较高等瓶
随着计算机软件技术和信息化的不断发展,近年来易货贸易也得到了飞速发展。易货贸易系统的各个子系统涉及到不同的部门和机构,管理着不同的对象,但是它们之间也有很多相互交