基于大数据分析的数据分区和采样方法研究

来源 :数码设计 | 被引量 : 0次 | 上传用户:shwjdbr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无共享架构的计算机集群是大数据处理和分析的主要计算平台。在集群计算中,数据分区和采样是加快大数据计算和增加可伸缩性的两种基本策略。在本文中,我们对大数据处理和分析方面的数据分区和采样的方法和技术进行了全面的概述。另外,还总结了Hadoop集群上基于采样的近似方法的流行策略和相关工作。本文认为,应将数据分区和采样一起考虑,以建立在计算和统计方面均可靠的近似群集计算框架。
其他文献
围绕清水江文书来源、地权制度与观念、林业商品经济、政府与市场、法律多元与纠纷解决等6个争议问题,评述清水江文书研究的最新进展,并就比较史、计量史、社会史、经济史、
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
【目的】探索合理的设施番茄水肥一体化滴灌系统模式和设计方法。【方法】以设施番茄为研究对象,通过设置滴灌毛管布置方式(T1(1管1行)、T2(1管2行)、T3(1管3行))、灌水量(W1
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
阐述高校图书馆流通前台在网络自动化集成系统下,其服务与管理工作出现的常见问题,分析、研究导致各种差错的影响因素,结合实际工作,提出增强流通前台借还工作效率的四点建议
马蹄声声震乾坤,不觉季节已入春。1月9日,浙江省企业信息化促进会一年一度的年终盛会——浙江省企业信息化促进会年终分享会顺利召开。作为浙江省企业信息化负责人的一堂大聚会
目的:观察急性高容量血液稀释(AHH)结合控制降压(CH)对口腔颌面外科手衍病人血流动力学及组织器官氧代谢的影响。方法:选择择期口腔颌面外科病人60例,ASAⅠ~Ⅱ级,随机分为三组,每组20例
曾经辉煌的微电台和现在的移动网络电台无论是新浪推出的微电台,还是如今众多的移动网络电台,都是互联网和自媒体时代媒介融合的产物,也是对传统广播媒介的延伸和创新。微博海量
目的:高效液相色谱法测定栀子中熊果酸含量.方法:采用高效液相色谱法,以熊果酸为化学对照品,固定相:SymmitryC18键合硅胶柱(4.6mm×250mm,5μm),流动相∶甲醇∶水∶冰醋酸∶三
【正】目前高校食堂定价机制及存在的问题定价机制在探索中前进的我国高校后勤社会化,许多制度、方法依然是旧体制的延续,其中包括食堂的餐饮定价问题。笔者走访了几所高校,