论文部分内容阅读
当今时代,数据爆炸为近似聚集的效率和准确性提出了很大挑战。为了提高近似聚集的效率和准确性,我们引入了机器学习领域的杠杆机制。在传统的杠杆机制中,杠杆反映了样本的个体差异以及各个样本对总体聚集结果的贡献情况。我们利用杠杆的思想,将杠杆应用到大数据领域,进而提高精度和聚集效率。针对数据的个体差异,我们提出了一种新颖的杠杆策略。该杠杆策略考虑了数据的特点,并依据他们的特点将数据分成不同区域,然后用不同方法对数据进行处理。基于这种反应数据的个体差异的杠杆,我们提出了一种基于杠杆的迭代机制,并利用杠杆和样本构建了目标函数,因此在提高精度的同时避免了采样顺序敏感的特性。除了用杠杆来反映数据之间的个体差异,我们也将杠杆拓展到各个数据块上。为了实现精度和效率之间的平衡,我们为各个数据块计算不同的杠杆。这样的杠杆反应了各个计算块之间的差异。利用这样的杠杆,我们对各个计算块制定了不同的采样率。本文主要对三个问题进行研究:独立同分布下的均值近似聚集方法,非独立同分布下的均值近似聚集算法,以及极值聚集算法。在独立同分布的均值近似聚集算法的研究中,我们提出了一种得到高精度估计的方法论。这种方法论引入了用两种不同方法得出的估计值。依据数据的实际情况,这两种估计互相约束迭代地调整,由此得到高精度的估计结果。我们引入了基于杠杆的迭代机制,用杠杆体现样本之间的个体差异,用迭代机制提高精度,从而得到高质量的聚集结果。在非独立同分布的均值近似聚集算法的研究中,我们沿用了独立同分布下的均值近似聚集方法,并考虑了各个块之间的差异,计算不同的采样率。在采样过程中,我们对不同的块赋予不同的杠杆值,计算不同的采样率。为了达到精度和效率之间的平衡,我们对每个块的标准差进行考虑。对标准差比较大的块,由于其数据分布较为复杂,因此为了得到关于整个分布的足够的信息,我们对这些块赋予比较大的采样率;对标准差比较小的块,由于其数据分布相对单一,因此只需要相对较小的样本即可得到数据分布的信息,因此我们对这些块赋予比较小的采样率。利用这种机制,我们实现了精度和效率之间的平衡。在极值聚集中,我们沿用了非独立同分布的均值近似聚集方法中的采样率计算机制。此外,由于极值聚集的特殊性,极大值/极小值有更大的概率出现在均值比较大/小的块中,因此,在计算每个块的杠杆的过程中,我们将均值也考虑了在内。基于这种采样率,我们提出了一种用样本预测极值的方法。该方法不需要依靠现有模型对数据的分布进行推测来推测极值,只需依靠样本和采样过程来对整个数据集进行推测,因此灵活性更高。