实例介绍
TensorRT 是 NVIDIA 推出的专门加速深度学习推理的开发工具。利用 TensorRT, 您可以快速、高效地在 GPU 上部署基于深度学习的应用。 我们首先会介绍 TensorRT 的基本功能和用法,例如它的优化技巧和低精度加速。其次, 结合我们实际使用过程中的经验,详细介绍 TensorRT 的难点:Plugin 机制。最后,我们会分享几个 TensorRT 成功应用案例
GPU的持续演进 专用芯片级的计算力与效率 GPU是计算单元高度密集的可编程通用芯片 可编程:适用面广,软件生态友好,解决方案成型快 计算密集:时下成熟高效的制程所能达到的顶级密度 NVIDIA GPU回顾 Maxwel(2014,28nm)重点增强fp32 Pascal(2016,16nm)增加新运算类型fp16(P1002X),int8(P40/P44×) Vota(2017,12nm)引入 Tensor core:fp16(8×) Turing(2018,12nm)改进并推广 Tensor core:fp16(8×),int8(16×) TENSOR CORE GPU的计算单元: Streaming Multiprocessor(SM) Register Fie (16,384 x 32-b.t Register File (16, 3B4 x 32-bit Tensor core INT32 FP32 TENSOR CORES NT32 FP32 TENSOR V100上首发; Turing高端型号全系装备 功能:单个 clock完成4x4矩阵乘加(D=A*B+C LE/ST LDST LDSTLDST SFU LDYST LDST LosT LDVSTSFU Register File(16,384 x 32-bit Register File(16,384 x 32-bit 计算能力比较 fp16 by tensor Cores per clock per SM: (4x 4)X2X8=1024 NT32FP32 INT32 FP32 TENSOR 1.515(GHz)x46(sm)X1024=71362.56 GFlops LE/STLDGT LDVET LDeT Loer LDVST SFU fp32 by fp32 pipeline per clock per SM: 2X64=128 96KB L1 Data Cache/ Shared Momery 1.515(GHz)x46(sm)X128=8920.32 Gflops 二 RT CORE TENS0RT:高性能DNN推理软件库 充分释放GPU的计算能力 利用深度学习框架难以达到理想的推理性能 原生框架一般对fp16nt8支持不佳 由于有时延要求,数据 batch较小,难以让GPU满载 Tensorrt:NVD|A官方出品的DNN推理软件库 高性能:相同硬件平台上可达到8倍加速 易于编程∶提供C++/ Python APl;模型参数与主流框架兼容 TENS0RRT的加速原理 TensorrT针对DNN推理的优化 支持fp16/int8 对数值进行精度转换与缩放,充分利用硬件的低精度髙通量计算能力 自动选取最优 cuDa kernel 矩阵乘法、卷积有多种CUDA实现方式,根据数据大小和形状自动选取最优实现 计算图优化 通过 kerne融合、减少数据拷贝等手段,生成DNN的优化计算图 TENS0RRT的加速原理 计算图优化: GoogLeNet next input concat relu re u relu relu bias bias bias bias 1x1 conv 3x3 conv 5x5 conv 1x1 conv relu relu bias bias max pool 1x1 conv 1x1 conv input concat TENS0RRT的加速原理 计算图优化:纵向融合 next input concat 1X1 CBR 3×3CBR 5x5 CBR 1X1 CBR 1x1 CBR 1x1 CBR max pool input concat TENS0RRT的加速原理 计算图优化:横向融合 next input concat 3×3CBR 5x5 CBR 1X1 CBR 1x1 CBR max pool input concat TENS0RRT的加速原理 计算图优化:消除拼接层 next input 3×3CBR 5x5 CBR 1X1 CBR 1x1 CBR max pool input 【实例截图】
【核心代码】
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论