Главное Авторские колонки Вакансии Вопросы
😼
Выбор
редакции
661 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Nvidia раскрыла эффективность формата NVFP4 для обучения LLM — новое исследование показывает, как NVFP4 превосходит FP8 и BF16

Nvidia представила новый 4-битный формат чисел с плавающей точкой NVFP4, который, по словам компании, способен значительно повысить эффективность обучения и инференса больших языковых моделей без заметной потери точности.
Мнение автора может не совпадать с мнением редакции

Исследование, опубликованное инженерами Nvidia, показывает, что NVFP4 превосходит существующие форматы FP8 и BF16 по соотношению точности и производительности.

Формат NVFP4 основан на схеме E2M1 (1 бит знака, 2 бита экспоненты и 1 бит мантиссы) и использует двухуровневое масштабирование: на уровне блоков по 16 элементов применяется коэффициент FP8, а глобальное значение в формате FP32 корректирует масштаб всего тензора. Такой подход позволяет компенсировать ограниченный диапазон 4-битных чисел и обеспечить стабильность вычислений.

В экспериментах Nvidia обучила модель с 12 млрд параметров на 10 трлн токенов, получив результаты, почти идентичные FP8. Потеря точности при использовании NVFP4 составила менее 1,5 %, а производительность выросла за счёт снижения объёмов памяти и вычислительных операций.

Для стабилизации обучения компания оставила около 15 % слоёв модели в формате BF16. Также применяются дополнительные методы — стохастическое округление, блочное масштабирование весов 16×16 и случайные преобразования Hadamard, уменьшающие влияние выбросов градиентов.

В Nvidia отмечают, что NVFP4 обеспечивает сопоставимые результаты с FP8 и BF16 при значительно меньших ресурсных затратах и может стать стандартом для обучения будущих поколений языковых моделей на архитектуре Blackwell.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем