NVIDIA TensorRT
NVIDIA® TensorRT™ 是用于高性能深度学习推理的 API 生态系统。TensorRT 包括推理运行时和模型优化,可为生产应用提供低延迟和高吞吐量。TensorRT 生态系统包括 TensorRT、TensorRT-LLM、TensorRT 模型优化器和 TensorRT Cloud。
NVIDIA TensorRT 优势
推理速度提升 36 倍
在推理过程中,基于 NVIDIA TensorRT 的应用程序的运行速度比仅使用 CPU 的平台快 36 倍。TensorRT 可优化在所有主要框架上训练的神经网络模型,使其具有更高的准确性,并将其部署到超大规模数据中心、工作站、笔记本电脑和边缘设备。
优化推理性能
TensorRT 基于 CUDA® 并行编程模型构建,可在各种 NVIDIA GPU (从边缘设备到 PC 再到数据中心) 上使用量化、层和张量融合以及内核调整等技术优化推理。
加速各种工作负载
TensorRT 为深度学习推理优化 FP8、INT8 和 INT4 提供了后训练和量化感知训练技术。减少精度推理可显著减少许多实时服务和自主和嵌入式应用程序所需的延迟。
使用 Triton 进行部署、运行和扩展
TensorRT 优化模型通过 NVIDIA Triton™ 推理服务软件进行部署、运行和扩展,该软件包括 TensorRT 作为后端。使用 Triton 的优势包括高吞吐量、动态批处理、并发模型执行、模型集成和串流音频和视频输入。
探索 NVIDIA TensorRT 的特性和工具
大型语言模型推理
NVIDIA TensorRT-LLM 是一个开源库,可在 NVIDIA AI 平台上加速和优化近期大型语言模型 (LLM) 的推理性能。开发者可通过简化的 Python API 实验新的 LLM,以实现高性能和快速定制。
开发者可在数据中心的 NVIDIA GPU 或工作站 GPU (包括本地 Windows 上的 NVIDIA RTX™ 系统) 上加速 LLM 性能,并采用相同的无缝工作流程。
优化的推理引擎
NVIDIA TensorRT Cloud 是为 ONNX 编译和创建优化推理引擎的开发者服务。开发者可以使用自己的模型并选择目标 RTX GPU,然后 TensorRT Cloud 构建优化推理引擎,可以下载并集成到应用中。TensorRT Cloud 还为 RTX GPU 上热门 LLM 提供预构建的优化引擎。
TensorRT Cloud 现已在 NVIDIA GeForce RTX™ GPU 上提供抢先体验,仅面向特定合作伙伴提供。请申请以便在 TensorRT Cloud 公开发布时接收通知。
优化神经网络
NVIDIA TensorRT 模型优化器是一个统一的先进模型优化技术库,包括量化、稀疏和蒸馏。它可压缩深度学习模型,以便在 TensorRT-LLM 和 TensorRT 等下游部署框架中高效优化 NVIDIA GPU 上的推理。
主要框架集成
TensorRT 直接集成到 PyTorch、Hugging Face 和 TensorFlow 中,通过一行代码实现 6 倍的推理速度。TensorRT 提供 ONNX 解析器,可将热门框架中的 ONNX 模型导入到 TensorRT。通过 GPU Coder,MATLAB 与 TensorRT 集成,可自动为 NVIDIA Jetson™、NVIDIA DRIVE® 和数据中心平台生成高性能推理引擎。
出色的推理性能
在 MLPerf 推理行业标准基准测试中,TensorRT 为 NVIDIA 赢得了所有性能测试。TensorRT-LLM 为生成式 AI 加速最新的大型语言模型,可提供高达 8 倍的性能、5.3 倍的更低总体拥有成本 (TCO) 和近 6 倍的更低能耗。
查看所有基准测试GPT-J 6B 推理性能提升 8 倍
Llama2 推理性能提升 4 倍
总体拥有成本
能源使用情况
加速各种推理平台
TensorRT 可优化适用于边缘、笔记本电脑和台式机以及数据中心的 AI 深度学习模型。它为 NVIDIA TAO、NVIDIA DRIVE、NVIDIA Clara™ 和 NVIDIA JetPack™ 等关键 NVIDIA 解决方案提供支持。
TensorRT 还集成了应用特定的 SDK,例如 NVIDIA NIM、NVIDIA DeepStream、NVIDIA Riva、NVIDIA Merlin™、NVIDIA Maxine™、NVIDIA Morpheus 和 NVIDIA Broadcast Engine。TensorRT 为开发者提供了一条统一的部署智能视频分析、语音 AI、推荐系统、视频会议、基于 AI 的网络安全和流式传输应用程序的途径。
从创作者应用到游戏和生产力工具,数百万 NVIDIA RTX、GeForce®、Quadro® GPU 用户都在使用 TensorRT。无论是直接集成还是通过 ONNX-Runtime 框架集成,经过 TensorRT 优化的引擎都是轻量级且压缩的,可助力开发者融入丰富的 AI 功能,而不会增加应用大小。
阅读成功案例
广泛应用于各行各业
TensorRT 资源
使用合适的推理工具在任何平台上开发适用于任何应用的 AI。