什么是NVFP4

AI解读 9小时前 硕雀
6 0

NVFP4NVIDIA Blackwell GPU 架构中引入的一种创新的 4 位浮点格式,旨在优化 AI 模型的推理性能和效率。它通过高精度比例编码和二级微块缩放策略解决了超低精度格式在保持数值准确性方面的挑战,特别是在处理宽张量值动态范围时。

NVFP4 的结构类似于大多数浮点 4 位格式(E2M1),具有 1 个符号位、2 个指数位和 1 个尾数位,其值范围大约在 -6 到 6 之间。NVFP4 通过高精度缩放编码和二级微块缩放策略,有效解决了超低精度格式在保持数值准确性方面的挑战。与 MXFP4 相比,NVFP4 通过更小的块大小和更强大的缩放,实现了更细粒度的缩放,从而显著减少了量化误差。

NVFP4 的另一个关键创新是微块扩展,其中每个 16 个值的块共享一个共同的缩放因子,这比 MXFP4 提供了更细粒度的缩放。这种结构减少了量化误差,提高了模型性能和内存效率,同时降低了每瓦性能,从而提高了能效。

NVFP4 的引入为 AI 工作负载提供了精确且紧凑的数据类型,与 FP16 相比,模型显存占用减少了约 3.5 倍,与 FP8 相比减少了约 1.8 倍。在大规模 AI 推理部署中,NVFP4 结合 HBM 和 Grace 的内存预算,克服了测试时扩展带来的挑战,为推理生态系统带来了显著优势。

NVFP4 的引入为 AI 模型的推理性能和效率提供了新的优化方向,特别是在超低精度下的模型性能和能效方面具有显著优势

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!