редакции
Nvidia раскрыла эффективность формата NVFP4 для обучения LLM — новое исследование показывает, как NVFP4 превосходит FP8 и BF16
Исследование, опубликованное инженерами Nvidia, показывает, что NVFP4 превосходит существующие форматы FP8 и BF16 по соотношению точности и производительности.
Формат NVFP4 основан на схеме E2M1 (1 бит знака, 2 бита экспоненты и 1 бит мантиссы) и использует двухуровневое масштабирование: на уровне блоков по 16 элементов применяется коэффициент FP8, а глобальное значение в формате FP32 корректирует масштаб всего тензора. Такой подход позволяет компенсировать ограниченный диапазон 4-битных чисел и обеспечить стабильность вычислений.
В экспериментах Nvidia обучила модель с 12 млрд параметров на 10 трлн токенов, получив результаты, почти идентичные FP8. Потеря точности при использовании NVFP4 составила менее 1,5 %, а производительность выросла за счёт снижения объёмов памяти и вычислительных операций.
Для стабилизации обучения компания оставила около 15 % слоёв модели в формате BF16. Также применяются дополнительные методы — стохастическое округление, блочное масштабирование весов 16×16 и случайные преобразования Hadamard, уменьшающие влияние выбросов градиентов.
В Nvidia отмечают, что NVFP4 обеспечивает сопоставимые результаты с FP8 и BF16 при значительно меньших ресурсных затратах и может стать стандартом для обучения будущих поколений языковых моделей на архитектуре Blackwell.