论文部分内容阅读
海量数据处理技术的发展,使数据挖掘算法所要训练的数据量级呈几何式增长,为了降低计算难度,较多的数据挖掘算法在求解最优化问题时采用迭代式的方法。数据的样本输入以及迭代的搜索步长的合理与否将严重影响迭代求解的效率和精度。不合理的样本输入及搜索步长一方面容易使迭代收敛至局部最优解,另一方面则减缓了收敛的速度,降低了挖掘结果的可靠性。在实际计算中,难以找到较为科学的搜索步长。采用数据标准化方法或一些度量学习方法获取数据的合理样本输入,是提高迭代求解效率和精度的有效手段。然而,在处理非均匀分布数据时,数据标准化方法与度量学习方法都不能有效地降低数据的集中程度。在数据的集中区域,数据点的间距较小,迭代的方式难以准确的区分数据,同时分类面的细小误差就能带来大量的错误识别。基于此,本文结合了一些传统的数据标准化方法和度量学习方法,对扩大非均匀分布数据密集区域数据点间距的方法进行了研究。相关研究围绕对非均匀分布数据进行拉伸与膨胀,扩大数据分布集中区域数据点间距,提高集中区域“分辨率”这一思路展开。主要工作包括:(1)提出一种非均匀分布数据的非线性拉伸方法,方法以一维统计的方式估计数据分布集中程度,根据估计拟合得到拉伸分布集中区域数据点间距的非线性数据标准化函数。(2)提出一种基于Kmeans的数据膨胀方法,利用Kmeans找出欧氏空间中数据聚集的区域,通过数据点到各聚集区域距离方差最小化的方式推动数据点向着空间中数据分布稀疏的区域挪动,扩大聚集区域的数据点间距。为了验证方法的效果,本文通过在多个不同类型的UCI公开数据集上进行实验,分别与一些经典的数据标准化方法和度量学习方法进行比对。实验结果显示,在处理数据分布集中的数据时,两者都能够有效地提高迭代求解的效率与精度。数据非线性拉伸方法能够在数据维数不高及维度相关性不高的情况下更精确的使数据形成一种较为均匀的分布,基于Kmeans的数据膨胀方法在非均匀分布数据维数较多且维度相关性较高不利于逐维拉伸的情况下则更适用。