大数据上基于杠杆的近似聚集算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：lb_124

【摘要】

：

当今时代,数据爆炸为近似聚集的效率和准确性提出了很大挑战。为了提高近似聚集的效率和准确性,我们引入了机器学习领域的杠杆机制。在传统的杠杆机制中,杠杆反映了样本的个

【作者】

：

韩姗珊

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2017年期

【关键词】

：

聚集杠杆近似高精度大数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今时代,数据爆炸为近似聚集的效率和准确性提出了很大挑战。为了提高近似聚集的效率和准确性,我们引入了机器学习领域的杠杆机制。在传统的杠杆机制中,杠杆反映了样本的个体差异以及各个样本对总体聚集结果的贡献情况。我们利用杠杆的思想,将杠杆应用到大数据领域,进而提高精度和聚集效率。针对数据的个体差异,我们提出了一种新颖的杠杆策略。该杠杆策略考虑了数据的特点,并依据他们的特点将数据分成不同区域,然后用不同方法对数据进行处理。基于这种反应数据的个体差异的杠杆,我们提出了一种基于杠杆的迭代机制,并利用杠杆和样本构建了目标函数,因此在提高精度的同时避免了采样顺序敏感的特性。除了用杠杆来反映数据之间的个体差异,我们也将杠杆拓展到各个数据块上。为了实现精度和效率之间的平衡,我们为各个数据块计算不同的杠杆。这样的杠杆反应了各个计算块之间的差异。利用这样的杠杆,我们对各个计算块制定了不同的采样率。本文主要对三个问题进行研究:独立同分布下的均值近似聚集方法,非独立同分布下的均值近似聚集算法,以及极值聚集算法。在独立同分布的均值近似聚集算法的研究中,我们提出了一种得到高精度估计的方法论。这种方法论引入了用两种不同方法得出的估计值。依据数据的实际情况,这两种估计互相约束迭代地调整,由此得到高精度的估计结果。我们引入了基于杠杆的迭代机制,用杠杆体现样本之间的个体差异,用迭代机制提高精度,从而得到高质量的聚集结果。在非独立同分布的均值近似聚集算法的研究中,我们沿用了独立同分布下的均值近似聚集方法,并考虑了各个块之间的差异,计算不同的采样率。在采样过程中,我们对不同的块赋予不同的杠杆值,计算不同的采样率。为了达到精度和效率之间的平衡,我们对每个块的标准差进行考虑。对标准差比较大的块,由于其数据分布较为复杂,因此为了得到关于整个分布的足够的信息,我们对这些块赋予比较大的采样率;对标准差比较小的块,由于其数据分布相对单一,因此只需要相对较小的样本即可得到数据分布的信息,因此我们对这些块赋予比较小的采样率。利用这种机制,我们实现了精度和效率之间的平衡。在极值聚集中,我们沿用了非独立同分布的均值近似聚集方法中的采样率计算机制。此外,由于极值聚集的特殊性,极大值/极小值有更大的概率出现在均值比较大/小的块中,因此,在计算每个块的杠杆的过程中,我们将均值也考虑了在内。基于这种采样率,我们提出了一种用样本预测极值的方法。该方法不需要依靠现有模型对数据的分布进行推测来推测极值,只需依靠样本和采样过程来对整个数据集进行推测,因此灵活性更高。

其他文献

一种基于哈希策略的路由查找算法

随着Internet的迅速发展,用于网络互联的主干链路上的核心路由器的接口速率达到100Gbit/s。这就要求骨干路由器每秒可以转发千万以上的分组,然而分组转发的关键是查找路由表,

学位

IP路由查找分层哈希满二叉树哈希冲突

基于Alluxio的数据高可用管理技术的研究与优化

随着存储硬件成本的不断降低,大数据生态系统的复杂变化,计算框架与存储系统的多样性和异构性发展,基于内存的分布式文件系统,数据库等一系列产品孕育而生,用来整合整个大数

学位

Alluxio数据管理数据预取异步存储数据可用性

本体构建系统的关键技术研究与实现

企业应用得益于那些具有丰富语义的企业知识,本体能为知识管理系统中各种符号提供共享的概念模型且在其中的应用越来越广泛。随着本体规模的增大,本体构建工具对于本体开发过

学位

本体构建协同并发控制本体表示对象持久化细分锁

基于H.264的无参考视频质量评估方法的研究

近年来,视频分享网站、IPTV数字电视、手机电视、视频监控等视频类服务大量涌现,H.264作为目前最先进的视频压缩技术,其出色的网络亲和性使得H.264在上述领域得到广泛应用。

学位

H.264视频质量无参考

无线传感器网络中节点的三维定位研究

在无线传感器网络中,传感器节点的位置信息对于实际应用来说是非常重要的,比如在事情监测中,当事情发生时需要知道它所发生的位置,这个时候就需要知道传感器节点的位置信息,

学位

无线传感器网络三维定位中垂面邻居节点二次定位

高性能服务器故障诊断方法的研究与设计

高性能服务器的应用领域越来越广,目前已经广泛应用于银行、军事、航天、气象服务等领域。在这些领域中,高性能服务器都是用来处理关键的业务,系统数据丢失或者异常停机都会

学位

集群监控故障诊断心跳检测

基于TinyOS的无线传感器网络数据采集系统设计与实现

无线传感器网络(Wireless Sensor Network, WSN)是当今国际备受关注的前沿热点领域,掀起了一场后PC时代的革命。无线传感器网络是由大量具有感知能力、计算能力和通信能力的

学位

无线传感器网络数据采集系统TinyOSDYMOMICAz

面向高可伸缩与可移植的众核全系统模拟器的设计与实现

全系统模拟器可以用于指定模拟某个硬件平台,因此其被广泛用于软件开发、错误判定、内存访问情况的查看和分析等用途。多核技术的发展为全系统模拟器技术带来了众多机遇同时

学位

全系统模拟器并行模拟器多核

基于非易失存储器的子图匹配算法研究

随着计算机存储器技术的发展,近年来出现了一类新型存储器—按字节寻址非易失存储器(byte-addressable non-volatile memory),简称NVM。NVM融合了传统DRAM按字节寻址和传统外

学位

非易失存储器子图匹配图数据挖掘图模拟

复杂网络社团结构划分算法研究

社团结构是复杂网络普遍而又重要的拓扑属性之一，它具有团内连接紧密、团间连接稀疏的特点。揭示网络社团结构对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网

学位

社团结构连接强度局部社团节点贡献度

大数据上基于杠杆的近似聚集算法的研究

与本文相关的学术论文