计算密集型应用在新型众核处理机环境下的实现及性能

来源 :复旦大学 | 被引量 : 0次 | 上传用户:qqQQ106942397
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算密集型应用一直是高性能计算(HPC)领域的一个重要话题。然而,计算密集型应用对硬件平台的计算能力要求甚高,使得传统的多处理器系统难以胜任。所幸,拥有大规模并行计算能力的新型众核处理机的问世改变了这一局面,为计算密集型应用注入了新的活力。当前,主流众核处理机的代表是NVIDIA的GPGPU和Intel的Xeon Phi,它们是超级计算机和计算机集群中广泛采用的加速器。最新的NVIDIA GPGPU采用Kepler架构,而Intel 最新推出的Xeon Phi基于MIC架构,它们都是并行计算领域的最新技术,却拥有截然不同的体系结构,代表着众核处理机的不同发展方向,因此计算密集型应用的实现平台有了不同的选择。在业内,对于这两者的比较还缺乏相对系统化的研究。本课题选取了一类典型的计算密集型应用——蒙特卡罗模拟,分别在两种众核处理机环境下实现并进行性能分析和比较。蒙特卡罗模拟的庞大计算量一直困扰它的应用和推广,其自身求解过程中包含的多次独立重复试验天生具有并行性,因此众核并行计算可以用来加速蒙特卡罗模拟,蒙特卡罗方法也成为了一个研究众核并行计算的完美切入点。本文的主要工作有:(1)探讨了并行计算的一些基本理论和编程模型。(2)深入研究了NVIDIA GPGPU和Intel Xeon Phi的体系结构与编程方法,并作了相应的对比和总结。(3)阐述了蒙特卡罗模拟的计算机实现及其在系统可靠性分析中的应用。(4)选取了两个蒙特卡罗模拟在系统可靠性分析中的具体案例,并在Tesla K20X GPU和Xeon Phi 5110P上实现,然后从多个角度对这两种加速器进行分析和比较。另外,为了更好地对两者的性能进行比较,本文还引入了相对计算能力的概念。最后,本文得出的结论是,对于蒙特卡罗模拟这一类计算密集型应用,NVIDIA的GPGPU在数据传输带宽、计算能力等方面优于Intel Xeon Phi。
其他文献
工作流技术作为一种实现企业过程集成的有效手段,正在被越来越多的行业所关注,工作流系统也因而正在被越来越多的企事业单位所使用。但是目前大多数工作流系统中的流程是以列表
RSA算法现广泛应用于加密和数字签名系统。但由于对安全素数要求高,尤其要求位数大(目前要求512bit以上),实现难度大,运算时间长,在一定程度上制约了它的应用。RSA算法自提出至今
近红外光谱分析的前提是数学模型,建立一个稳定准确的数学模型是一个复杂的过程。在一台仪器上建立的模型,在其他仪器上往往不能适用,因此如何利用模型转移技术维护并充分利用已
网络的普及为社会生活带来无限便利的同时,其易攻击性也会导致不可估量的后果,如何保障网络安全已是当今开放的网络亟待解决的问题。安全协议是网络安全的有效保障手段之一,而安
制造业的规模和水平仍是衡量一个国家综合实力和现代化程度的主要标志。网络制造技术是是现代制造业的重要技术。目前,中国制造业的主要问题是从制造业大国变成制造业强国,我们
随着网络技术和网络应用的发展,网络安全问题显得越来越重要。拒绝服务攻击由于容易实施、难以防范、难以追踪等而成为最难解决的网络安全问题之一,给网络社会带来了极大的危
无线局域网(Wireless Local Area Network,WLAN)是现代无线通信技术在计算机网络中的应用,它为通信的移动化、个人化和多媒体应用提供了实现手段和技术。 无线局域网以其方
工作流的动态修改是工作流领域中最具实用价值的研究方向之一,自工作流参考模型提出以来,很多学者都在此领域提出了自己的见解和方法。对于一些业务流程根本不固定的领域,为
网络信息资源的共享是信息社会的重要标志之一,搜索引擎是用户在Internet上检索信息的主要工具,随着搜索引擎技术的发展,智能化及专业化已成为学术界及计算机工业界的研究热点。
本文旨在对并行程序设计、通信正确性验证、性能分析给出相应的建模与实现方法,以利于并行程序的推广应用。本文工作的主要贡献表现在如下几个方面:(1)在对现有主要的程序建模
学位