什么是NVIDIA TensorRT

AI解读 1年前 (2024) 硕雀

122 0 0

NVIDIA TensorRT

NVIDIA TensorRT 是一款用于高性能深度学习推理的 SDK，包含深度学习推理优化器和运行时，可为推理应用程序提供低延迟和高吞吐量。

NVIDIA TensorRT 的优势

推理速度提高 36 倍
基于 NVIDIA TensorRT 的应用程序在推理过程中的执行速度比纯 CPU 平台快达 36 倍，使您能够优化在所有主要框架上训练的神经网络模型，以高精度校准较低精度，并部署到超大规模数据中心、嵌入式平台或汽车产品平台。

优化推理性能
TensorRT 基于 NVIDIA CUDA® 并行编程模型构建，使您能够在 NVIDIA GPU 上使用量化、层和张量融合、内核调整等技术来优化推理。

加速每项工作负载
TensorRT 使用量化感知训练和训练后量化和浮点 16 (FP16) 优化来提供 INT8，用于部署深度学习推理应用程序，例如视频流、推荐、欺诈检测和自然语言处理。降低精度的推理可显着减少延迟，这是许多实时服务以及自主和嵌入式应用程序所必需的。

使用 Triton 进行部署、运行和扩展
TensorRT 优化的模型可以使用 NVIDIA Triton™ 进行部署、运行和扩展，这是一种开源推理服务软件，其中包含 TensorRT 作为其后端之一。使用 Triton 的优势包括动态批处理和并发模型执行的高吞吐量，以及模型集成、流式音频/视频输入等功能。

NVIDIA TensorRT-LLM推理

NVIDIA TensorRT-LLM 是一个开源库，可加速和优化 NVIDIA AI 平台上最新大型语言模型 (LLM) 的推理性能。它让开发人员可以尝试新的 LLM，提供高性能和快速定制，而无需深入了解 C++ 或 CUDA。

开发人员现在可以通过同一工作流程无缝工作，将 NVIDIA 数据中心系统上的LLM性能加速到本地台式机和笔记本电脑 GPU（包括本机 Windows 上的 NVIDIA RTX 系统）。

TensorRT-LLM 将 TensorRT 的深度学习编译器（包括 FasterTransformer 的优化内核、预处理和后处理以及多 GPU 和多节点通信）包装在一个简单的开源 Python API 中，用于定义、优化和执行LLM生产中的推理。

NVIDIA TensorRT下载地址：NVIDIA TensorRT | NVIDIA 开发者

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

什么是NVIDIA TensorRT

NVIDIA TensorRT

NVIDIA TensorRT 的优势

NVIDIA TensorRT-LLM推理

什么是生成式AI

什么是PyTorch