基于索引偏移的MapReduce聚类负载均衡策略

来源 :计算机科学 | 被引量 : 0次 | 上传用户:vvpmlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中。其采用原始Hash函数划分数据,当数据分布不均匀时,常会出现数据倾斜的问题。基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,因此现有的解决数据倾斜的方法并不适用。为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略。该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下
其他文献
为了解决当前集装箱堆场信息采集水平不足和工作效率低下的问题,设计了一个基于超高频无源RFID技术的堆场信息采集系统,介绍了系统的构成和各部分的作用,给出了系统中一种符合IS
无线传感器网络时间同步的精度主要受同步跳数的影响,同步精度随同步跳数增大而降低;网络分簇采用分簇技术以实现尽可能延长网络的生存周期的目标;基于精度分簇的无线传感器
随着大数据服务领域引入云计算技术,需要调动的云服务资源增多且其拓扑结构变得复杂,因此传统基于服务质量(QoS)的加权评价方法无法动态地评价云计算服务资源的有效性和准确性
为了提高基于智能手机的人体行为识别率,优化多分类器集成系统的泛化性能及个体分类器的差异性,提出了基于差异性增量聚类(Diversity Measure Increment-Affinity Propagation clustering,DMI-AP)的选择性集成人体行为识别模型。首先对训练集的所有样本进行bootstrap抽样并训练基分类器,选出大于平均识别率的基分类器构成分类器集合;然后将集合的
传统的最大间隔准则在计算类间离散度矩阵时往往忽略了类别之间的差异,但是对于人脸年龄估计,不同年龄标签之间的差异性是非常显著的。因此,在标签之间引入距离度量,提出标签敏感的最大间隔准则维数约减算法。此外,考虑到人脸变老的复杂性,提出两步的局部回归算法——K近邻-标签分布的支持向量回归(K Nearset Neighbors-Label Distribution Support Vector Rere
复杂实时仿真系统中不同层次对实时性、可靠性要求各不相同;网络和操作系统是该类系统环境的重要组成部分;针对硬件在回路试验的实时需求,提出了基于RTX下的反射内存网的半实物
基于位置服务的应用已经进入大数据时代,传统基于位置服务的技术面临系统扩展性、性能等方面的挑战。云计算技术是大数据处理的基础,索引是优化查询的重要手段。尽管目前已存
图像联合分割是计算机视觉领域的一个研究热点。有能力在分割过程中利用相似对象的信息是联合分割相比于其他分割算法的一个优势,与此同时,建立对应对象的相似性也成为了一项具有挑战性的任务。文中为图像联合分割算法提出一个新的中心一致性敏感直方图。传统的图像直方图通过为每个出现在图像中的像素在该像素的对应灰度级计数器上加一的方式计算得出。与传统的图像直方图不同,中心敏感直方图在每个像素处计算,并且它是为每个出
基于WiFi的信道状态信息(Channel State Information,CSI)的手势识别在人机交互中具有广泛的应用前景。目前,大多数的CSI手势识别方法需人工提取特征,特征提取的过程繁琐,且只能识别特定方向的手势,限制了人的活动范围。针对上述问题,提出了利用长短时记忆神经网络(Long Short-Term Memory,LSTM)训练的方法,设计了一个基于LSTM的CSI手势识别系统。
目标检测是计算机视觉领域中的一个研究热点。近年来,深度学习中的卷积神经网络在目标检测任务上表现突出。文中综述了深度学习在目标检测技术中的研究进展。首先,介绍了目标检测的两种方法和常用数据集,并分析了基于深度学习的方法在目标检测任务上所具有的优势。其次,根据深度学习的目标检测方法的发展过程,介绍了该方法所使用的经典卷积神经网络模型,并分析了各网络模型的特点。然后,从获取特征的能力、检测的速度及所使用