CPU GPU协同并行计算

实例介绍

【实例简介】
CPU GPU协同并行计算；异构混合，协同并行计算，ＧＰＵ计算，性能优化
性能可提高1.23倍。标量平流21模式模拟大气标量要素场发展迅速其核心数目不断增加,如BM最新的超级计算机在风场驱动下的输送过程其计算量与标量的数目成正比,如 Blue Waters使用的 Power7处理器具有32个核心,而ntel WRF常规运行下5个雾标量的计算时间占串行总时间的集成度最高的单硅CPU原型包括48个可编程IA处理器内 10%。标量平流具有计算访存比低(0.76)线程间数据依赖核同时,GPU具有非常高的浮点计算性能,且GP(GU应用关系强和 CPU-GPU数据传输量大等特点,为其协同并行计开发已具有友好的编程环境。面对混合计算环境提出的复杂算提出了巨大挑战。作者采用如下措施对该内核GPU版本挑战,最优的软件解决方案是将不同算法的优势集中到一个进行性能优化:1)借助三维硬件纹理(UDA2.0及以上版本软件框架内,即软件本身也是混合的。基于此思想 MAGMA 支持)减少了计算内核数量和 CPU-GPU数据传输次数2)在项目2针对多核CPU/GPU异构混合平台,开发类似LA 主机端使用页锁定内存提高了CPU与GPU间的数据传输PACK的稠密线性代数(DA库和软件框架从而使应用程速率性能提高了1.25倍。 WRF-Chem模式支持许多化学序充分利用混合系统内各种处理器提供的计算资源。动力求解器,文献[27]重点研究了RADM2模型的异构混合无论针对多核CPU还是GPU平台高效DLA算法的设并行技术。在 WRF-Chem模式中,RADM2求解器作用于固计要求都是统一的即算法应该具备并行度高和计算强度高定区城网格内的每个格点即该模式包含大量的数据并行性;等特点。对于CPU/GPU异构混合平台,DLA算法的设计须同时在RADM2求解器内部线性代数操作中存在一定的指同时考虑执行过程中的负载平衡问题且计算任务的划分应令级并行。因此,作者提出了三层并行处理技术,即CPU核密切结合各平台的优势。 Tomov等3利用有向无环图心内的指令级并行GPU流处理单元上的数据并行以及多核DAG)来开发DA算法的并行度,将算法的执行过程表示心(多线程)或者节点间(MPI》的数据并行。为一系列的子任务及其相互依赖关系,其中“结点”表示子任 2. 4.2 Folding@Home 务,“边”表示子任务间的依赖关系。各子任务的粒度根据蛋白质是生命体系中重要的功能物质被称为生物机体CPU和GPU的计算能力进行划分其中大任务由GPU负责的“纳米计算机2。蛋白质分子由氨基酸残基组成,通过折执行,而小任务在多核CPU上执行。为提高DLA算法的计叠成特定形状来体现其功能(如酶和抗体等);如果折叠过程算强度,作者修改了基于BLAS1库的DA算法,在其最内层出错,则会导致癌症、疯牛病、帕金森氏症、阿兹海默症等疾循环采用块矩阵操作。 Tomov等3提出基于“混合技术”的病。算法设计思想,以充分利用异构平台各处理器类型的计算优 Folding@Home2是分布式分子动力学项目,通过个人势。作者利用CUDA编程模型,基于BLAS和LAPA(K(多和组织捐献的家庭及办公计算资源来研究蛋白质的折叠行核CPU及 CUBLAS(GPU)等第三方库,设计了 Cholesky, 为,目前其GPU版本已得到广泛部署。据统计),目前LU和QR分解等混合DLA算法。关于异构平台上可扩展 GPU贡献的计算能力达到3214TFIO尸S,占总计算资源的DLA算法的设计, Ltaief等3充分利用DA算法的两级并 56.3%已超过CPU和PS3提供的计算资源的总和。行度,首先将其计算任务划分为块,映射到多个 CPU-GPU组蛋白质折叠模拟可抽象为N体模拟问题目前已有基于合并发执行,然后对每个块内的计算任务继续开发细粒度并 “成对相加”思想的O(N)力学模型以及基于邻接表树等数行性以使CPU和GPU协同计算。数值实验表明,以CPU 据结构的O(N)力学模型。由于蛋白质折叠模拟涉及大量的GPU组合为计算资源单位,当计算资源线性增加时,基于粒子(103-106)及积分步(10一1015),因此巨大的计算需求DA算法求解器的浮点性能也呈线性增长趋势,表现出较好限制了问题规模和模拟时间,最终限制了所获得的有用信息的强可扩展性。量。鉴于GPU与CPU间巨大的浮点计算性能差异,目前已2.4.4 FEASTGPU 有相关研究利用GPU来完成基于O(N)模型的蛋白质折叠 FEAST36:7是解决大规模有限元问题的高效软件包,可模拟。 Elsen等利用GPU加速几种通用的力学模型,使其支持多种现代体系结构上的软件开发其应用领域覆盖计算性能超过高度优化CPU版本的25倍以上,并指出N体模拟流体力学和计算结构力学,主要构件包括稀疏带状BLAS、可为计算受限问题随着GPU峰值性能的不断提高,其问题规扩展递归聚类( ScaRC)以及 FEASTGPU。稀疏带状BLAS 模及时间尺度必定会不断增大。 Friedrichs等3在GPU上是BLAS的一种扩展封装了 cache感知和平台优化的通用完整实现了全原子蛋白质分子动力学模拟程序,包括所有的线性代数操作例程。 ScaRE是一种广义的求解模式融合了标准力场项积分、约束等。作者首先讨论了GPU版本实现区域分解和并行多重网格的优势可提供层次式的求解器数所面临的算法可扩展性、访存、CPU与GPU间通讯、流程控据和矩阵结构。 FEASTGPU1作为局部平滑子完全工作在制等挑战,然后分别介绍了AT1和 NVIDIA版本程序的实现 ScaRC模式内部因此基于 FEAST的应用程序可直接利用细节,最后基于 ATI Radeon HD4870和 NViDIA GeForce GPU提供的强大计算能力和超高内存带宽,无须对代码作任 GTX280GPU对该模拟程序进行数值实验,获得比传统何修改(即“最小扰动”)。 FEASTGPU运行在单精度状态,且 CPU单核版本性能快700倍的超高性能。采用混合精度迭代求精法以保证选代过程的收敛速度。 2. 4.3 MAGMA FEASTGPU在整个 FEAST软件包中的抽象层次及工从nte, AMD. IBM和NVmA等工业界主流芯片厂商作方式使得混合系统的异构性完全封装到节点内因此对最新发布的处理器来看异构混合体系结构将成为未来处理MP而言该并行系统是同构的。 FEASTGPU并非针对线性器以及高性能计算机系统的发展方向。目前多核CPU技术代数操作进行加速,而是针对局部子问题加速整个多重网格 1)客户端统计信息:2010年4月4日05:01:35更新。求解器避免了GPU计算内核的多次配置及数据传输开销。领域科学家需要自己设计调度策略如将计算任务用DAG Goddeke等151.31某基于 FEAST构建了 FEASTSolid和Na图表示,“结点”表示子任务,“边表示各子任务的后继关系 ier-Stokes求解器,并使用 FEASTGPU来加速其本地求解计算任务与硬件资源的映射关系决定了该计算任务的执行效器分别取得了5倍和12倍的局部加速及1.6倍和23倍的率以GPU为例由于其缓存及寄存器资源非常有限因此全局加速。根据 Amdahl定律,如果可加速部分的计算时间不同的线程组织方式对性能差异较大。小于整体的50%那么 FEASTGPU局部加速引起的全局性3.3 GPGPU程序的性能优化技术研究能提升将非常有限。为此作者指出两种解决方案:1)修改原对CPU/GPU协同并行计算程序而言,其性能影响因素有算法,使可加速部分的比例增大;2)松弛“最小扰动”条件,有:计算内核组织方式线程组织方式寄存器和缓存的使用将更多的计算过程迁移到GPU上运行。全局存储器访问特点 GPU-CPU同步以及 GPU-CPU数据 2.4.5其它研究项目传输等。因此, GPGPU程序性能优化研究内容包括:1研究除上述几个代表性的项目外,国内外还有大量的相关研并行程序的计算特点设计合适的计算内核和数据流以及线究如Zhe等较早开展了 GPGPU研究用格子 Boltzmann程组织方式;2)研究并行程序的访存特点,有效使用GPU上模型(LBM)实现了并行流模拟程序;东京工业大学基于的层次式内存提高其计算强度;3)研究 CPU-GPU协同方 TSUBAME异构混合机群开展了加速计算( Accelerated式,借助GPU编程环境提供的异步操作来减少各种交互开 Computing)研究441;国防科学技术大学成功研制出“天河销。一号”,开展了线性代数45、粒子模拟61、GPPU程序性能为方便领域科学家开发高效的CPU/GPU协同并行计优化{448等相关研究;中国科学院过程工程研究所及联想、算程序,下面列举几条指导性建议:1)充分利用GPU零开销曙光公司共同设计并研制出千万亿单精度峰值性能的Mle的进程切换特点,确保足够的细粒度并行性以隐藏访存延迟 8.7系统,该系统主要应用于多相流分子动力学等研究领等开销;2)借助共享存储器实现高效的块内线程间通讯,尽量域避免使用高延迟的全局同步操作(全局存储器读写);3)研究程序的数据局部性和内存访问模式,充分利用GPU的内存 3进一步研究的方向层次,尤其是高速缓存的使用;4)设计合理的数据结构,充分 3.1面向异构混合系统的新型并行算法研究利用GPU硬件纹理加速大块、只读数据的访问;5)有时可根在 CPU/GPU异构混合平台中,CPU和GPU具有不同据GPU硬件厂商提供的指令集研究硬件感知的优化方法, 的硬件特点和计算方式,因此基于异构混合平台进行并行算从ALU使用预取带宽和线程使用三个方面优化程序。法设计时必须密切结合其底层硬件特点,使算法充分利用混34异构平台上大规模并行程序的可扩展性研究合系统中各类型处理器的性能优势。鉴于 GPGPU研究属于可扩展性是设计髙性能计算机和并行算法所追求的一个新兴领域,目前大部分算法研究工作是已有算法向异构混合重要目标。可扩展性主要包括体系结构可扩展性、并行机可平台的移植针对该平台的全新算法较少扩展性51、并行算法可扩展性2、并行算法一机器组合可扩 CPU和GPU都存在存储墙问题CPU主要通过多层展性和并行算法一体系结构可扩展性等。新型CPU 次存储结构来缓解该问题而GPU则使用硬件多线程技术GPU异构混合平台的出现为高性能计算提供了海量计算资来隐藏高开销的访存延迟。面向异构混合系统的高效并行算源同时其复杂体系结构为该平台上的可扩展并行算法设计法应具有以下特点:1)异构感知的:根据底层硬件特点设计算提出了新的挑战,主要来源于平台的异构性海量并行度、法使体系结构一算法组合发挥出最大性能;2)计算强度高:GPU计算能力与 CPU-GPU数据传输速度问的差距等。高计算强度是并行程序高计算效率的普遍要求,对GPU尤目前可扩展性研兖成果主要集中于同构系统,对CPU异其重要,否则GPU的高浮点计算性能优势根本得不到发挥;构系统(CPU峰值性能不同)的可扩展性也有少量成果发 3)CPU与GPU交互开销小:包括数据传输开销及同步开销;表0.3,因此非常有必要研究并行算法CPU/GPU体系结 CPU与GPU间交互是协同并行计算不可避免的应通过优构组合的可扩展性,内容包括:1)研究CPU/GPU并行机体化算法来减少数据传输次数和数据量以及同步开销。系结构特点找到影响该组合可扩展性的因素,并提取到可扩 3.2cPU/GPU高效协同方式研究展模型中;2)研究并降低并行算法对该组合可扩展性的负面 CPU(GPU高效协同计算是发挥异构混合平台性能的关影响3)提出并行算法一CPU/GPU体系结构组合的可扩展键因素因此必须根据两者的计算能力和执行特点确定合理模型为异构平台上的大规模并行程序开发提供指导意义。的协同方式以保证CPU和GPU间的计算负载平衡,降低各结束语30多年来,随着半导体和制造工艺的飞速发展种交互开销,进而提高程序的执行效率。研究内容包括计算以及处理器体系结构的不断演化单核处理器的性能一直以任务的划分模型、任务的调度策略以及计算任务与硬件资源摩尔定律的速度不断提高对并行程序而言即使不进行任何的映射关系。修改,其性能也可随着处理器性能的提高而增长,有人将这种合理的任务划分是高效协同的基础需综合考虑各计算现象称为“免费的午餐” free ride)。但由于制造工艺物理资源的计算能力计算量通信和数据传输开销等多个因素,极限和功耗极限等因素的制约单核处理器的发展遇到瓶颈, 将整个计算任务划分成一定数量和适当粒度的子任务。任务继而转向多核方向以求在设计复杂度性能以及功耗等诸多调度将各计算子任务调度到空闲计算资源上执行,使整个异方面达到最佳平衡:同时GPU等处理器以其高浮点性能也构混合系统时刻保持满负载状态从而发挥其最大计算能力;受到高性能计算业界的广泛重视。为充分利用这些新兴处理任务调度通常由并行编程环境或资源管理系统负责但有时器平台的性能必须密切结合其体系结构特点开展新型并行算法研究这项工作具有很大的挑战性。 hardware[CI/SC2001. New York: the ACM Press, 2001 CPU/GPU协同并行计算是近儿年新兴的前沿课题目18] NVIDIA Corporation, CUDA Programming Guide version22 前已有许多领域科学家通过协同并行计算加速相关应用,且 Leb/Ol].http://developer.downloadnvidiacom/compute/ 已取得不少成果。本文综述了 CPU/GPL协同并行计算的 cuda/2_ 21/ toolkit/docs/NVIDIA CUDa Programming_ Guide 研究进展,并重点介绍了几个项目的立项依据研究内容和研 2.2.l.pdf,200908-12 究方法,以期为领域科学家进行协同并行计算提供有用信息 [19] Devices A M ATI Steam Computing User Guide [EB/OL]. ht tp://developer. amd. com/gpu assets/ Stream Computing _Us PU/GPU协同并行计算研究是开放的课题,在新型并行算 er_Guide, pdf, 2010-03-25 法研究、高效协同方式程序性能优化和大规模扩展算法研([20]IiuW, Schmidt b, Voss g, et al Accelerating molecular dynam- 究等方面都值得进一步研究 ics simulations using graphics processing units with CUDA[J]. Computer Physics Communications, 2008, 179(9): 634-641 参考文献 [21 Cevahir A, Nukada A, Matsuoka S. Fast Conjugate Gradients [1] Macedonia M. The GPU enters computing's mainstream [J] with Multiple GPUS[C]//Allen G, et aL., eds. ICCS 2009. Part IEEE Computer,200336(10):106-108 L LNCS5544,2009:893903 Owens J D, Houston M Luebke D, et al GPU computing [J]. [22] Chen S, Qin J Xie Y A Fast and Flexible Sorting Algorithm Proceedings of thc IEEE, 2008.96(5):879-899 with CUDALC]//Hua A, Chang S-L, eds. ICA3PP 2009, LNCS [3]张舒褚艳利,等GPU高性能运算之CUDA[M].北京:中国水 5574.2009:281-290 利水电出版社,2009:1-13 [23] Igual F D, Mayo R, Quintana-orti E S. Attaining High Perform [4 Michalakes J, Vachharajani M. GPU acceleration of numerical ance in General- purpose Computations on Current graphics Pro- weather prediction []. Parallel Processing Letters, 2008, 18 cessors[c]//Palma J LM,et aL, eds. VECPAR 2008, LNCS (4):531-548 5336.2008:406-419 [5]刘钦佟小龙 GPU/CPU协同并行计算(CPP℃)在地震勘探资[24]方旭东面向大规模科学计算的 CPU-GPU异构并行技术研究料处理中的应用[R]北京:北京吉星吉达公司,2008 [D].长沙:国防科学技术大学,2009 Bell N, Garland M. Implementing Sparse Matrix-Vector Multi- [25] Michalakes J, Vachharajani M, GPU Acceleration of NWP plication on Throughput-oriented Processors[c]//SC2009. New enchmarkKernels[eb/ol].http://www.mmmucaredu York. ACM. 2009 wrf/wG2/GPU,2009-02-25 [7] Bolz J, Farmer 1. Grinspun E, et al. Sparse matrix solvers on the [26] Michalakes J. Vachharajani M GPU Acceleration of Scalar Ad GPU: Conjugate gradients and multigrid [J]. ACM Transaction vection[Eb/oL].http://www.mmm,ucaredu/wrf/wg2/ GPU/Scalar Advect. htm, 2009-02-25 on graphics,2003,22(3):917-924 [8] Stone J, Phillips J, Hardy D, et al. Accelerating molecular model [27] Linford J, Michalakes J, Sandu a, et ad. Multi-core acceleration ing applications with graphics processors []. Journal of Compu of chemical kinetics for simulation and prediction[cl//SC2009 the IEEE Press. 2009 tional chemistry,2007,28(16):2618-2640 [28]paNdelab.Folding@home[eb/ol].http://folding.stanford [9 Anderson J A, LorenzC D, Travesset A General purpose molec- edu,201003-18 ular dynamics simulations fully implemented on graphics pro [29] Elsen E, Vishal V, Houston M, et al n-body simulations on cessing units []]. Journal of Chemical Physics, 2008, 227(10) GPUs[Cl/SC 2006. New York: ACM, 2006 [30] Chen Yong, Sun Xian-he, Wu Ming. algorithmrsystem scalabili [10] Govindaraju N K, Lloyd B, Wang W,et al Fast computation of ty of heterogeneous computing [j] Journal of Parallel and Dis- database operations using graphics processors [C]//SIGMOD tributed Computing, 2008, 68: 1403-1412 2004. New York: ACM, 2004 [31] Friedrichs M S Eastman P, Vaidyanathan V,et al. Accelerating [11] Nukada A, Ogata Y, Endo T, et al. Bandwidth intensive 3-D Molecular Dynamic Simulation on Graphics Processing Units FFT kernel for GPUs using CUDA[C]//SC2008 New York: U]. Journal of Computational Chemistry, 2009.30(6):864-872 ACM,2008 [32] Agullo M, Demmel J, Dongarra J,et al. Numerical linear algebra [12] Govindaraju N K, Lloyd B, Dotsenko Y,et al. High Performance on emerging architectures: the Pl ASMA and MAGMa projects Discrete Fourier Transforms on Graphics Processors [c]// [] Journal of Physics: Conference Series, 2009, 180(1) SC2008, New York: ACM. 2008 [33] Tomov S, Dongarra J, Baboulin M Towards Dense Linear alge [13]吴恩华图形处理器用于通用计算的技术现状及其挑战[几]软 bra for Hybrid GPU Accelerated Manycore Systems[R]. Ten 件学报,200415(10):1493-1504 lessee: University of Tennessee Computer Science, 2008 [14] Blythe D Rise of the Graphics Processor[JJ. Proceedings of the [34] Tomov S, Nath R, Ltaief H,et al. Dense Linear algebra Solvers IEEE,2008,96(5):761-778 for Multicore with GPU Accelerators[C]// High-level Parallel [15] Goddeke d, Wobker H, Strzodka R, et al. Co-processor accelera- Programming Models and Supportive Environments 2010. At- tion of an unmodified parallel solid mechanics code with lanta: IEEE. 2010 FEASTGPULJ] International Journal of Computational Science [35] Ltaief H, Tomov S, Nath R, et al A Scalable High Performant and Engineering, 2009, 4(4): 254-269 Cholesky Factorization for Multicore with GPU Accelerators [16] Goddeke D, Buijssen S H M, Wobker H,et al. GPU Acceleration TR]. Innovative Computing Laboratory, 2009 of an Unmodified Parallel Finite Element Navier-Stokes Solver [36] FEAST Group. FEAST; Finite Element Analysis &Solutions [C]//High Performance Computing Simulation 2009. Logos Toolsleb/ol].http://www.feastunidortmundde/index Verlag: IEEE, 2009 html,2010-407 [17] Larsen ES, McAllister D, Fast matrix multiplies using graphics 下转第46页) 份的(t,n)动态门限代理签名方案。相对于一般的基于身份[7] Hwang Ms,LuJL, Lin L C. a practical(t,,n) threshold proxy 的门限代理签名方案,本文方案具有更高的动态属性。同时, signature scheme based on the RSa cryptosystem[J]. TEEE 利用CDH问题的困难性证明了本文方案在标准模型下的安 Trans, on Knowledge and Data Engineering, 2003, 15(6): 1552- 全性,因此相对于随机预言模型下可证安全的方案来说,本文 1560 方案具有更高的安全性 [8]蒋瀚徐秋亮周永彬.基于RSA密码体制的门限代理签名[J 计算机学报,2007,30(2):241-247 参考文獻 [ 9] Shamir A. ldentity-based cryptosystems and signature schemes [C/Blakley G, Chaum D, eds. Proceedings of Crypto 1984. [1] Mambo M, Usuda K, Okamoto E Proxy signature for delegating New York: Springer-Verlag, 1984: 47-53 signing operation [C]/Proceedings of the 3rd ACM Conference [10] Boneh D, Franklin M. Identity-based encryption from the Weil on Computer and communications security. New York: ACm iring[ C]//Kilian J, ed. Proceedings of Crypto 2001. London: 1996:48-57 [2] Zhang K Threshold proxy signature schemes[C]//Proceedings Springer-Verlag, 2001: 213-229 of Information Security Workshop( ISw97). LNCS 1396 [11] Xu J, Zhang Z F, Feng D G. Identity Based Threshold Proxy Sig pringer- Verlag, 1997: 282-290 nature[eb/ol].http://eprint.iacr.org/2004/250/ [3] Kim S, Park S, Won D. Proxy Signatures, Revisited [Cl//Pro- [12] Bao H Y, Cao Z F, Wang SB ldentity-based Threshold Proxy ceedingsof Information and Communications Security (ICICS Signature Scheme with Known Signers [C]//Proceedings of 97). LNCS 1334. Springer- Verlag, 1997: 223-232 Theory and applications of Models of Computation, LNCS [4] Shamir A. How to share a secret[J]. Communications of the 3959. Springer-Verlag, 2006: 538-546 ACM,1979,22(11):612-613 [13]鲁荣波何大可王常吉对一种基于身份的已知签名人的门限 [5] Sun H M. An efficient nonrepudiable threshold proxy signature 代理签名方案的分析[.电子与信息学报,2008,30(1):100 scheme with known signers]. Computer Communicaion, 1997 103 22(8):717-722 [14] Paterson K G, Schuldt J CN. Efficient identity-based signatures [6]李继国,曹珍富.一个改进的门限代理签名方案[J]计算机研究 secure in the standard model[Cl/Proceedings of ACISP 2006 与发展,2002,39(11):1513-1518 Berlin: Springer-Verlag, 2006: 207-222 (上接第9页) [46]吴强GPU加速高速粒子碰撞模拟[D].长沙:国防科学技术大 [37] Becker C, Buijssen S H M, Wobker H, et aL FEAST: Develop- 学,2009 ment of HPC technologies for FEM applications[c]//Munster [47] Fang Xu-dong, Tang Yu-hua, Wang Gui-bin, et aL. Optimizing G, Wolf d, Kremer M, eds. High Performance Computing in Sci- stencil application on multi-thread GPU architecture using ence and engineering, berlin Springer, 2008 stream programming model[CI//Muller-Schloer C, Karl W,Ye [38] Goddeke D, Strzodka R, Mohd-Yusof J, et al. Exploring weak hia s, eds, ARCS. LNCS 5974. 2010: 234-245 salability for FEM calculations on a GPU-enhanced cluster] [48] Ma An-guo, Cai Jing, Cheng Yu, et al. Performance Optimization Parallel Computing, 2007(33): 685-699 Strategies of High Performance Computing on GPu[c]//Dou [39 Pastor L, Orero J L B An Efficiency and scalability Model for Y, Gruber R, Joller J, eds, APPT. LNCS 5737 2009: 150-164 Heterogeneous Clusters[C]//Proceedings of the 2001 IEEE In [49] Chen Fei-guo, Ge Wei, Guo Li, et al Multi-scale HPC system for ternational Conference on Cluster Computing Newport Beach multi-scale discrete simulation-Development and application of IEEE, 2001 a supercomputer with 1 Petaflops peak performance in single [40] Zhe F, feng Q, Kaufman A, et al, GPU cluster for high perform- precision]. Particuology, 2009, 7: 332-335 ance computinglcl/SC2004. Washington: IEEE, 2004 [50] Asanovic K, Bodik R, Catanzaro B,et al The Landscape of Par- [41]Ogawa S, Aoki T. gPu computing for 2-dimensional incom allel Computing Research: A View from Berkeley[R]. Califor pressible-flow simulation based on multigrid method [C] / nia: Electrical Engineering and Computer Sciences University of Transactions of the Japan Society for Computational Enginee- California at berkeley, 2006 ring and Science. 2009: 20090021 [51] Bell G. Ultracomputers a teraflop before its time[J]. communi [42] Nukada A, Matsuoka S Auto-tuning 3-D FFT Library for CU cation of the ACM, 1992, 35(8): 26-47 DA GPUs[C]//SC2009 Portland ACM, 2009 [43] Matsuoka S Petascaling Commo [52] Gupta A, Kumar V Scalability of Parallel Algorithms for Matrix Ity onto Exa Multithreaded Massively-parallel Vector Processors the Only Multiplication[C]//1993 International Conference on Parallel Road to Exascale [C]//IEEE Cluster Computing Conference Processing. New York: IEEE, 1993: 115-123 2009. New Orleans: IEEE, 2009 [53] Sun Xianhe, Rover d T. Scalability of Parallel algorithm Ma [44] Matsuoka S, Aoki T, Endo t, et al GPU accelerated computing- chine combinations]. IEEE Transactions on Parallel and Dis- from hype to mainstream, the rebirth of vector computing[J]. tributed Systems, 1994, 5(6), 599-613 Jourmal of Physics: Conference series, 2009, 180(1): 012043 [54] Kumar V, Gupta A Analysis of scalability of parallel algorithms [45]葛震GPU加速 PQMRCGSTAB算法研究[D长沙:国防科学 and architectures: A survey [c] /International Conference on 技术大学,2009 Supercomputing Cologne: ACM, 1991: 396-405 46 CPU/GPU协同并行计算研究综述旧 WANFANG DATA文献链接作者: 卢风顺,宋君强,银福康,张理论, LU Feng-shun, SoNG Jun- qiang, Yin Fu-kang ZHANG LI-lun 作者单位: 国防科学技术大学计算机学院,长沙,410073 刊名: 计算机科学|sTc|PKu 英文刊名 COMPUTER SCIENCE 年,卷(期): 2011,38(3) 参考文献⑤4条) 1.葛震GPU加速 PQMRCGSTAB算法研究2009 2. Matsuoks S; Aoki T; Endo T GPU accelerated computingfrom hype to mainstream, the rebirth of vector computing 2009 (01) 3. Matauoks s Petascaling Commodity onto Exascale: GPUs as Multithreaded Massively-parallel Vector Processors-the Only Road to Exascale 2009 4. Nuksda A; Matsuoka S Auto-tuning 3-D FFT Library for CUDA GPUs 2009 5. Linford J; Michalakes J: Sandu A Multi-core acceleration of chemical kinetics for simulation and predietion 2009 6. Michalakes J: Vachharajani M GPU Acceleration of Scalar Advection 2009 7. Tomov S; Nath R; Ltaief H Dense Linear Algebra Solvers for Multicore with GPU Accelerators 2010 8. Tomov S: Dongarra J; Baboulin M Towards Dense Linear Algebra for Hybrid GPU Accelerated Manycore Systems 2008 9. Agullo M; Demmel J: Dongarra J Numerical linear algebra on emerging architectures: the PLASMa and MAGMA projects 2009(01) 10. Kumar V; Gupta A Analysis of scalability of parallel algorithms and architectures: A survey 1991 11. Sun Xian-he; Rover D T Scalability of Parallel Algorithm-Machine Combinations [F x*H] 1994(06) 12. Gupta A; Kumar V Sealability of Parallel Algorithms for Matrix Multiplication 1993 13. Bell G Uhracomputers: a teraflop before its time[外文期刊]1992(08) 4. Asanovic K; Bodik R: Catanzaro B The Landscape of Parallel Computing Research: A View from Berkeley 2006 15. Chen Fei-guo; Ge Wei; Guo Li Multi-scale HPC system for multi-scale discrete simulation-Development and application of a supercomputer with 1 Petaflops peak performance in single precision 2009 16. Ma An-guo; Cai Jing; Cheng Yu Performance Optimization Strategies of High Performance Computing on GPU 2009 17. Fang Xu-dong; Tang Yu-hua; Wang Gui-bin Optimizing stencil application on multi-thread GPU architecture using stream programming model 2010 18. Friedrichs M S; Eastman P, Vaidyanathan V Accelerating Molecular Dynamic Simulation on Graphics Processing Units[外文期刊]2009(06) 19. Chen Yong; Sun Xian-he: Wu Ming algorithm-system scalability of heterogeneous computing 2008 20. Elsen E; Vishal V: Hous ton M N-body simulations on GPUs 2006 21 Pande lab Folding@Home 2010 22 Cevahir A; Nukada A; Matsuoka S Fast Conjugate Gradients with Multiple GPUs 2009 23. Liu W; Schmidt B; Voss G Accelerating molecular dynamics simulations using graphics processing units with cuDa[外文期刊]2008(09) 24. Devices A M ATI Steam Computing User Guide 2010 25. NVIDIA Corporation CUDA Programming Guide Version 2.2 2009 26. Larson E S: McAllister D Fast matrix multiplies using graphics hardware 2001 27.吴恩华图形处理器用于通用计算的技术、现状及其挑战[期刊论文]软件学报2004(10 28. Ogawa S; Aoki T GPU computing for 2-dimensional incompressible-flow simulation based on multigrid method 2009 29. Zhe F; Feng Q; Kanfman A GPU cluster for high performante computing 2004 30. Pastor L; Orero J L K An Efficiency and Scalability Model for Heterogeneous Clusters 2001 31. Goddeke D; Strzodka R; Mohd-Yusof J Exploring weak salability for FEM calculations on a GPU enhanced cluster 2007(33) 32. Becker C; Bui jssen S H M; Wobker H FEAST: Development of HPC technologies for FEM applications 2008 33. FEAST Group FEAST: Finite Element Analysis Solutions Tools 2010 34 Ltaief H; Tomov S: Nath R A Scalable High Performant Cholesky Factorization for Muhicore with GPU Accelerators 2009 35 Govindaraju n K: Lloyd B; Dotsenko Y High Performance Discrete Fourier Transforms on Graphics Processors 2008 36. Nukada A; Ogata Y: Endo t Bandwidth intensive 3-D FFT kernel for GPUs using CUDA 2008 37 Govindaraju n K: Lloyd B; Wang W Fast computation of database operations using graphics processors 2004 38. Goddeke D; Bui jssen S H M; Wobker H GPU Acceleration of an Unmodified Parallel Finite Element Navier-Stokes solver 2009 39. Goddeke D; Wobker H; Strzodka R Co-processor acceleration of an unmodified parallel solid mechanics code with feastgpu[外文期刊]2009(04) 40. Blythe d Rise of the Graphics processor[外文期刊]2008(05 41. Macedonia M The GPU enters computing' s mainstream[外文期刊]2003(10) 42. Michalakes J; Vachhara jani M GPU Acceleration of NWP: Benchmark Kernels 2009 43.方旭东面向大规模科学计算的CPU-GPU异构并行技术研究2009 44 Igual F D: Mayo R: Quintana-orti E s Attaining High Performance in General-purpose Computations on Current Graphics Processors 2008 45. Chen S; Qin J; Xie Y A Fast and Flexible Sorting algorithm with CUDA 2009 46. Michalakes J: Vachharajani M GPU acceleration of numerical weather prediction[/k x*F] 2008(04) 47.张舒;褚艳利GPU高性能运算之CUDA2009 48.0 wens L; Houston m; Luebke d gPu comput ing[外文期刊]2008(05) 49.吴强GPU加速高速粒子碰撞模拟2009 50. Anderson J A; Lorenz C D; Travesset A General purpose molecular dynamics simulations fully implemented on graphics processing units[外文期刊]2008(10) 51. Stone J; Phillips j; Hardy D Accelerating molecular modeling applications with graphics processors [外文期刊]2007(16 52 Bolz J: Farmer I; Grinspun E Sparse matrix solvers on the GPU: Conjugate gradients and multigrid[/l 文期刊]2003(03) 53. Bell N; Garland M Implementing Sparse Matrix-Vector Multiplication on Throughput -oriented Processors 2009 54.刘钦;佟小龙GPU/CPU协同并行计算(CPPC)在地震勘探资料处理中的应用2008 本文链接http://d.g.wanfangdata.comcn/periodiCaljsjkx201103002.aspx 【实例截图】
【核心代码】

标签：

实例下载地址

点此下载实例

不能下载？内容有错？点击这里报错 + 投诉 + 提问

好例子网口号：伸出你的我的手 — 分享！

网友评论

我要评论

小贴士

感谢您为本站写下的评论，您的评论对其它用户来说具有重要的参考价值，所以请认真填写。

类似“顶”、“沙发”之类没有营养的文字，对勤劳贡献的楼主来说是令人沮丧的反馈信息。
相信您也不想看到一排文字/表情墙，所以请不要反馈意义不大的重复字符，也请尽量不要纯表情的回复。
提问之前请再仔细看一遍楼主的说明，或许是您遗漏了。
请勿到处挖坑绊人、招贴广告。既占空间让人厌烦，又没人会搭理，于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享，对搜索内容的合法性不具有预见性、识别性、控制性，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论平台是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定，若资源存在侵权或相关问题请联系本站客服人员，点此联系我们。关于更多版权及免责申明参见版权及免责申明

CPU GPU协同并行计算

同类人气实例

实例介绍

实例下载地址