大规模分布式近似SVM数据分块数选择

来源 :天津大学 | 被引量 : 0次 | 上传用户:ufs2269acjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式计算是大规模机器学习的重要途径,数据分块数选择是分布式机器学习研究的重要问题之一,直接影响着机器学习算法的泛化性和运行效率。如何选择合适的数据分块数成为分布式机器学习模型选择的重要研究课题。现有分布式机器学习方法往往根据经验或处理器个数来选择数据分块数,数据分块数选择缺乏可解释性和合理性,缺少明确的数据分块数选择准则。针对这一问题,提出一个并行效率敏感的分布式机器学习数据分块数选择准则,该准则可在保证分布式机器学习模型测试精度的情况下,提高计算效率。首先,推导分布式机器学习模型的泛化误差与数据分块数目的关系。然后以此为基础,依照经验风险最小化理论,定义最小化分块经验风险,提出折衷模型泛化性与并行效率的数据分块数选择准则。最后,在分布式ADMM框架下随机傅里叶特征空间中,采用提出的数据分块数选择准则,实现了大规模分布式近似支持向量机问题的数据分块数选择,同时给出了分布式模型实现方案。在高性能计算集群和大规模标准数据集上,实验验证所提出的数据分块数选择准则是有效且可靠的。本文所提准则具有一定通用性,并不局限于分布式ADMM算法框架和支持向量机问题。
其他文献
转型中国正面临着社会再组织化的重构,这必然会带来公私领域在管理方式、互动模式以及更深层次权力结构的深刻调整。本文从这一视角解读重庆市垫江县的"两代表一委员"联系群
权威的社会主义司法制度,是司法公正和高效的必要条件,是贯彻依法治国、建设社会主义法治国家的重要内容。司法权威的结构就是具有权威性的法律原则及规则、司法主体、司法程
以一座藏区海拔4 000 m以上的全风化花岗岩隧道—拉丁拉山隧道大型塌方处治工程为依托,对该隧道塌方产生原因、处治思路及措施和处治效果进行分析,总结并论证藏区典型花岗岩
微机保护装置的交流输入回路设计──(高压线路微机保护组合屏设计的几点补充说明)(二)林木民(南京电力自动化设备总厂)1微机保护的交流输入电流电压的正确接线方式为了防止由于接到
通过作物秸秆施用广东金葵子微生物腐秆剂对比试验,鉴定和评价金葵子微生物腐秆剂田间应用效果,为进一步示范推广提供科学依据。结果表明:使用金葵子腐秆剂秸秆还田增产显著,
总结了家用电器安全隐患的常见种类,分析了这些安全隐患的形成原因,从硬件建设和软件建设方面介绍了家用电器安全隐患的检验及测试系统。
中小城镇在我国环境保护和确保经济可持续发展中的作用越来越大 ,由于历史的原因和经济发展的不均衡 ,造成了中小城镇水环境和水污染控制的特殊性。根据小城镇经济水平不高的
选取中、日、澳、新、美、英基础教育发达的六国主流高中化学教材,对"合成有机高分子材料"的内容和组织编排进行对比分析研究,发现各国教材在内容选取比例、内容深度、课程功
<正> 卡特总统的国家安全顾问布热津斯基于1993年出版了《失去控制:21世纪前夕的全球性混乱》一书,分析了美国正在面临的20个问题,其中之一就是日益加深的种族矛盾和贫困问题
分析了奥贝尔氧化沟溶解氧的分布与能耗之间的关系 ,比较了奥贝尔氧化沟与其他处理工艺所需供氧量的差别。理论分析与实际计算结果证明 ,与同类型处理工艺相比 ,奥贝尔氧化沟