Главное Авторские колонки Вакансии Вопросы
67 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Суперкомпьютер Tesla Dojo научился выявлять дефектные чипы без перебоев в работе

Компания Tesla представила систему Stress — инструмент для выявления неисправных ядер в суперкомпьютере Dojo, состоящем из миллионов вычислительных модулей. Такие сбои особенно критичны, поскольку даже один незамеченный дефект может нарушить «многонедельную» сессию обучения ИИ.
Мнение автора может не совпадать с мнением редакции


Одна из главных проблем — так называемое «тихое повреждение данных» (SDC), которое характерно для процессоров с высокой плотностью ядер и длительным временем работы. Обучающие плитки Dojo включают до 8850 64-битных ядер на архитектуре RISC-V, при этом ошибки могут возникать без видимых признаков неисправности.

Система Stress назначает каждой вычислительной единице уникальную программу, позволяя выявлять сбои в процессе работы без остановки системы. Ядра при этом обмениваются данными между собой, что увеличивает эффективность обнаружения дефектов в 10 раз.

Stress способна выявлять неисправности среди миллионов активных ядер. Обычно ошибки фиксируются после анализа от 1 до 100 ГБ тестовых инструкций, однако в сложных случаях требуется более 1 ТБ. Помимо этого, система помогает находить архитектурные ошибки и программные уязвимости на этапе развёртывания.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем