Search Our Site

 
加快深度学习推理速度

在人工智能 (AI) 的新时代,深度学习能超精准地完成复杂的任务,从而提升人们的日常生活体验。在图形处理器 (GPU) 上训练的深度学习模型已在众多领域展示出以前无法实现的震撼成果,这些领域包括互动语音、计算机视觉和预测分析等等。

在中央处理器 (CPU) 上部署现代神经网络以进行推理时,AI 服务无法提供用户互动所需的响应速度。NVIDIA® Tesla® P40 和 P4 GPU 加速器带来了出色的解决方案,它们提供极高的吞吐量和响应极其迅速的体验,能轻松处理深度学习推理的工作负载。它们采用 NVIDIA Pascal™ ™架构可提供比 CPU 快 60 倍以上的推理性能,即使在极其复杂的深度学习模型中也能实现实时响应。

 
 

NVIDIA TESLA 推理加速器

Deep Learning Inference Latency

Deep Learning Inference Throughput

 

NVIDIA Tesla P40 

极高的深度学习推理吞吐量

Tesla P40 专为提供极高的深度学习推理吞吐量而打造。每个 GPU 可提供 47 TOPS(万亿次运算/秒)的推理性能,使得一台配备八个 Tesla P40 的服务器可代替超过 100 台 CPU 服务器。

PdfTesla P40 数据表 (PDF – 166KB)

 

 

 

 

外扩型服务器中的超高效深度学习

Tesla P4 可加快外扩型服务器的运行速度,其能效比 CPU 提高了 40 倍,非常令人震撼。

PdfTesla P4 数据表 (PDF – 164KB)
 
 
 
 
 tesla p4 front

深度学习加速器的特性和利益点

这些 GPU 能加快预测速度,让 AI 应用程序能够带来卓越的用户体验。

吞吐量提高 100 倍以适应不断增长的数据量 
吞吐量提高 100 倍以适应不断增长的数据量
 
每天,传感器日志、图像、视频和记录都会产生海量的数据,而使用 CPU 来处理这些数据并不划算。采用 Pascal 架构的 GPU 提供极高的吞吐量,可让数据中心轻松处理深度学习部署的工作负载和从海量数据中提取有效信息。在处理深度学习工作负载方面,一台配备八个 Tesla P40 的服务器可以代替超过 100 台仅使用 CPU 的服务器,因而可以提升吞吐量并降低购买成本。

 

超高效打造出低功耗的外扩型服务器 
超高效打造出低功耗的外扩型服务器
 
凭借小巧的外形和 50/75 瓦的功耗设计,超高效的 Tesla P4 GPU 可加快经过密度优化的外扩型服务器的运行速度。在处理深度学习推理的工作负载方面,它的能效比 CPU 高 40 倍,非常惊人。因此,超大型客户可在现有的基础设施内提升处理能力,并满足以指数式增长的 AI 应用程序需求。 
 
 
 
 专用于新型 AI 视频服务的解码引擎  
专用于新型 AI 视频服务的解码引擎
 
Tesla P4 和 P40 GPU 配备专用的硬件加速解码引擎(与执行推理的 NVIDIA CUDA® 核心并行运行),可实时分析多达 39 路高清视频流。将深度学习集成到视频管线后,客户可以向用户提供智能程度创新高的新型视频服务。
 
 
 
 
 使用 NVIDIA TensorRT™ 和 DeepStream SDK 加快部署速度
使用 NVIDIA TensorRT™ 和 DeepStream SDK 加快部
 
署速度NVIDIA TensorRT 是一种高性能神经网络推理引擎,用于在生产环境中部署深度学习应用程序。它包含一个为优化在生产环境中部署的深度学习模型而创建的库,可获取经过训练的神经网络(通常使用 32 位或 16 位数据),并针对降低精度的 INT8 运算来优化这些网络。NVIDIA DeepStream SDK 利用 Pascal GPU 的强大功能同时对视频流进行解码和分析。
 

NVIDIA TESLA P40P4 加速器的性能规格

P4P40参数

 *启用加速频率的每秒万亿次运算次数

 

NVIDIA TESLA P40P4 加速器的功能和规格

                                      P4

                                     P40

P4参数  P40参数 

上海兰忆网络科技有限公司.

上海市漕宝路80号光大会展中心D座1106室 / 中国 +86 21 64510410

订阅我们的新闻刊物

扫码关注  
微信公众号  
qrcode for gh 81122468ecea 258