论文部分内容阅读
很多高维实际数据反映点之间的依赖关系,数据点大部分只依赖于低维流形而不是占据整个数据空间,非线性降维模型生成拓扑映射(GTM)基于潜在空间到数据空间之间的映射变换,根据少量低维潜在、隐藏变量来反映数据的概率密度,在降维过程中有一个重要问题就是低维变量的选取方式。原始GTM采取固定选点的EM算法,对于数据量较高的、流形结构复杂的降维,插值基函数的数量要求较高,因此计算量庞大。PCGTM借鉴PCA降维,采取不同于GTM的映射函数,适当的控制了因为维数升高带来的计算困难,但是在迭代求解中,仍然存在这样的两个问题:初始点选取较少的情况下不能有效显示高维数据的几何结构,并且迭代循环中只有部分点对降维有影响,剩余点会造成计算上的浪费。 针对GTM与PCGTM算法的不足,我们通过大量数据实验与观察,分析判断初始点选取的合理性,并改变固定选点方式,在初始点不足的情况下进行网格加密,提高数据恢复水平和降维效果,并及时抛弃不影响降维的潜在变量,保证在不降低降维效果下加速迭代,并且通过实验,说明我们的方法对于提高降维效率、改善数据恢复效果的有效性。