21 Апреля 2026 Chaitex Андрей 117 0 В избр. Сохранено

От аутсайдеров к претендентам на трон NVIDIA. Рейтинг китайских GPU-карт

Китайский рынок GPU для AI - это уже не «экспериментальная лаборатория». Более 1,65 млн китайских AI-ускорителей отгружено в 2025 году, доля рынка достигла 41%. Но качество решений очень разнится: от карт, которые можно сравнить только с трёхлетним NVIDIA A100, до флагманов, претендующих на позицию H200.

Мнение автора может не совпадать с мнением редакции

Разбираем 10 ключевых китайских GPU-карт.

10 место: Enflame CloudBlazer T20 (燧原科技)

Enflame CloudBlazer T20

Технологии: 12 нм (GlobalFoundries), архитектура DTU 2.0;
Память: 32 GB HBM2e;
Производительность: ~160 TFLOPS INT8;
Софт: TopsRider SDK.

Аналог: NVIDIA A100 (2020) — T20 проигрывает по всем параметрам, включая энергоэффективность.

Что это: Ускоритель второго поколения, ориентированный на тренировку. Выпущен в 2021 году. 12 нм техпроцесс, без поддержки FP4/FP8 в hardware.

Преимущества: Стабильная работа в связке до 8 карт, поддержка PyTorch и TensorFlow. Госпроекты и умные города.

Слабости: Устаревший техпроцесс (12 нм), ограниченная экосистема софта.

Кейс: Дата-центры провинции Ганьсу, China Telecom.

9 место: Iluvatar BiV100 / 天垓100

Iluvatar BiV100

Технологии: 7 нм, GPGPU;
Память: 32 GB HBM2e;
Производительность: ~15 TFLOPS FP32;
Софт: DeepSpark (CUDA через vcuda).

Аналог: NVIDIA A100 40GB — сопоставима по памяти, уступает по пропускной способности.

Первая карта Iluvatar CoreX, 2021 год. Первый китайский 7nm GPGPU.

IPO на Гонконгской бирже — январь 2026, выручка +92%.

Преимущества: DeepSpark экосистема, Kubernetes GPU-sharing через HAMi.

Слабости: 32 GB — мало для современных моделей. Уровень A100 2020 года.

Кейс: Шанхайский суперкомпьютерный центр.

8 место: Moore Threads MTT S3000 (摩尔线程)

Moore Threads MTT S3000

Технологии: 12 нм (TSMC), архитектура MUSA (Chunxiao), 22 млрд. транзисторов;
Память: 32 GB GDDR6;
Производительность: 15,2 TFLOPS FP32;
Софт: MUSA, MUSIFY (автоконвертер CUDA).

Аналог: NVIDIA A100 — S3000 проигрывает в 1,3 раза по FP32, значительно по памяти.

Преимущества: Наиболее зрелый CUDA-совместимый стек, среди китайских GPU-стартапов. MUSIFY автоматически конвертирует CUDA-код.

Слабости: 12 нм, GDDR6 вместо HBM, 15 TFLOPS — уровень 2020.

Кейс: Кластерная тренировка MT-infini-3B.

7 место: Moore Threads MTT S4000 (摩尔线程)

Moore Threads MTT S4000

Технологии: MUSA 3.0, 128 Tensor Cores;
Память: 48 GB GDDR6, 768 GB/s;
Производительность: 25 TFLOPS FP32, 200 TOPS INT8;
Интерфейс: PCIe Gen5×16, MTLink;

Аналог: NVIDIA L40S — аналогичная ориентация, но L40S значительно мощнее (183 TFLOPS FP32).

Преимущества: Первая по-настоящему data center-ориентированная карта Moore Threads. MTLink — собственный межкарточный интерконнект.

Слабости: GDDR6 (не HBM). 200 TOPS INT8 — в 5-8 раз меньше H100.

Кейс: Кластерная тренировка до 3B параметров, inference-сервисы.

6 место: Baidu Kunlun P800 (百度昆仑)

Baidu Kunlun P800

Технологии: 7 нм, Kunlun 3-го поколения;
Память: 32 GB HBM2e;
Производительность: ~345 TFLOPS FP16;
Софт: PaddlePaddle, Kunlun SDK;
Кластер: 30 000 чипов.

Аналог: NVIDIA A100 80GB — P800 близок по FP16, но уступает по универсальности софта.

Преимущества: Единственный чип в рейтинге от Big Tech. Baidu имеет Ernie 5.0 (2,4 трлн. параметров), облачную платформу Qianfan и гарантированный внутренний спрос.

Слабости: Замкнутая экосистема под PaddlePaddle. 32 GB — недостаточно для больших моделей.

Кейс: Ernie 5.0 training, Baidu Cloud, China Mobile.

5 место: MetaX C500 (沐曦)

MetaX C500

Технологии: 7 нм, архитектура MXMACA;
Память: 32 GB HBM2e;
Производительность: 15 TFLOPS FP32 (75% от A100), 120 TFLOPS FP16;
Софт: MXMACA (CUDA-совместимый).

Аналог: NVIDIA A100 40GB — C500 немного слабее, но с китайской производственной цепочкой.

Преимущества: Первая production-карта MetaX, 2023 год. Кластер на 10 000+ картах в Ningxia. Верифицирована с ChatGLM2-6B (Zhipu AI).

Слабости: FP32 ниже A100 в 1,3 раза. 32 GB — недостаточно для 70B+ моделей.

Кейс: Дата-центр Ningxia, ChatGLM тренировка, облачный инференс.

4 место: Iluvatar BiV150 (天数智芯)

Iluvatar BiV150

Технологии: 7 нм (улучшенный), GPGPU;
Память: 64 GB HBM2e;
Производительность: ~30+ TFLOPS FP32;
Софт: DeepSpark, Kubernetes/HAMi.

Аналог: NVIDIA A100 80GB — уступает по пиковой производительности, выигрывает по цене.

Преимущества: Эволюция BiV100 с удвоенной памятью. 64 GB — inference моделей до 32B параметров в FP16. Серверы 512 GB (8 карт).

Слабости: Всё ещё уровень A100. HBM2e (не HBM3).

Кейс:Шанхайский суперкомпьютерный центр, облачные провайдеры.

3 место 🥉: Moore Threads MTT S5000 (摩尔线程)

Moore Threads MTT S5000

Технологии: MUSA последнего поколения;
Память: 80 GB, 1,6 TB/s;
Производительность: 1 000 TFLOPS dense AI (FP8), поддержка FP8-FP64;
Интерконнект: MTLink — 784 GB/s;
Софт: MUSA, MUSIFY.

Первый китайский GPU с 1 PFLOPS (dense, FP8). Уровень между NVIDIA Hopper и Blackwell.

Флагман Moore Threads, анонс март 2026. Капитализация — 2 682 млрд. юаней.

Преимущества: MTLink 784 GB/s — лучший межкарточный интерконнект среди китайских стартапов. MUSIFY — автоконвертер CUDA.

Слабости: Пока не выпущена в серию. Production-зрелость нужно подтвердить.

Аналог: NVIDIA H100 SXM.

2 место 🥈: MetaX C600 (沐曦)

MetaX C600

Технологии: Современный китайский техпроцесс, MXMACA;
Память: 144 GB HBM3e;
Производительность: Поддержка FP8, позиционирование на уровне H200;
Софт: MXMACA (CUDA-совместимый).

144 GB HBM3e — тот же объём, что у NVIDIA H200. Единственный китайский GPU с competitive memory на уровне топовых NVIDIA.

Преимущества: Флагман MetaX, напрямую конкурирующий с H200. «Полностью отечественное производство». Супернод C550 3D Mesh — до 64 карт.

Слабости: Пиковая производительность пока не раскрыта полностью. Молодой продукт.

Аналог: NVIDIA H200 — прямой конкурент с аналогичным объёмом HBM.

1 место 🏅: Huawei Ascend 950PR / Atlas 350 (华为昇腾)

Технологии: 7 нм(SMIC), Da Vinci, 53 млрд транзисторов;
Память: 112 GB HiBL 1.0, 1,4 TB/s;
Производительность: 1,56 PFLOPS FP4, ~800 TFLOPS FP16;
Интерконнект: Lingqu, SuperPod до 8 192 карт;
Софт: CANN Next (CUDA-совместимая модель);
Энергопотребление: 600W;
Доля рынка: ~50% (прогноз Bernstein, конец 2026).

Безусловный лидер. Первый китайский чип с аппаратной FP4. 2,87x от H20. DeepSeek V4, ByteDance, Alibaba — подтверждённые клиенты.

Преимущества:

• Единственная в Китае аппаратная FP4 (H200 не имеет FP4, только Blackwell);

• Собственная HBM (HiBL 1.0) — независимость от Samsung/SK Hynix;

• CANN Next — 80% PyTorch-кода работает без переписывания;

• SuperPod до 8 192 карт, 7 партнёров-серверных OEM.

Слабости: 600W, CANN моложе CUDA на 18 лет, 7nm vs 4nm NVIDIA.

Аналог: NVIDIA H200 — по FP4 Ascend 950PR превосходит H200.

Кейсы: DeepSeek V4 (полная миграция), Zhipu GLM-Image (№ 1 Hugging Face), China Mobile (20 млрд. юаней), Alibaba/ByteDance.

Сводные данные

Ascend 950PR — Техпроцесс: 7 нм; Память: 112 GB; Пик. произв.: 1.56P FP4; Тип памяти: HiBL 1.0; Аналог NVIDIA: \> H200 (FP4);
MetaX C600 — Техпроцесс: -/-; Память: 144 GB; Пик. произв.: ~ H200; Тип памяти: HBM3e; Аналог NVIDIA: ≈ H200;
MT S5000 — Техпроцесс: -/-; Память: 80 GB; Пик. произв.: 1000T FP8; Тип памяти: HBM?; Аналог NVIDIA: ≈ H100;
Iluvatar BiV150 — Техпроцесс: 7 нм; Память: 64 GB; Пик. произв.: ~30T+ FP32; Тип памяти: HBM2e; Аналог NVIDIA: ≈ A100 80G;
MetaX C500 — Техпроцесс: 7 нм; Память: 32 GB; Пик. произв.: 15T FP32; Тип памяти: HBM2e; Аналог NVIDIA: ≈ A100;
Kunlun P800 — Техпроцесс: 7 нм; Память: 32 GB; Пик. произв.: 345T FP16; Тип памяти: HBM2e; Аналог NVIDIA: ≈ A100;
MT S4000 — Техпроцесс: -/-; Память: 48 GB; Пик. произв.: 25T FP32; Тип памяти: GDDR6; Аналог NVIDIA: \< L40S;
MT S3000 — Техпроцесс: 12 нм; Память: 32 GB; Пик. произв.: 15T FP32; Тип памяти: GDDR6; Аналог NVIDIA: \< A100;
Iluvatar BiV100 — Техпроцесс: 7 нм; Память: 32 GB; Пик. произв.: ~15T FP32; Тип памяти: HBM2e; Аналог NVIDIA: ≈ A100;
Enflame T20 — Техпроцесс: 12 нм; Память: 32 GB; Пик. произв.: ~160T INT8; Тип памяти: HBM2e; Аналог NVIDIA: \< A100.

Выводы: перспективы китайских GPU

Текущее состояние: Карты с 10 по 6 место находятся на уровне NVIDIA A100 — трёхлетней давности. Они вполне пригодны для inference небольших и средних моделей, но серьёзно отстают от H100/H200.

Перелом в 2025-2026: Moore Threads S5000 (1000 TFLOPS FP8), MetaX C600 (144 GB HBM3e) и Huawei Ascend 950PR (1,56 PFLOPS FP4) — это совершенно другой уровень. Они не копируют NVIDIA, а идут своими путями.

Главный барьер — софт. CUDA — 18 лет экосистемы. Huawei через CANN Next (80% PyTorch-совместимость), Moore Threads через MUSIFY, MetaX через MXMACA.

Для российских предприятий: Inference 70B-200B — Huawei Ascend 950PR. Гибкая экосистема — Moore Threads S5000 или MetaX C600. Задачи поскромнее (7B-32B) — Iluvatar BiV150, Kunlun P800, S4000.

Методология рейтинга

Рейтинг построен по совокупности факторов: производительность (TFLOPS/FLOPS), объём и пропускная способность памяти, зрелость программного стека, масштабируемость (мульти-GPU), наличие production-кейсов.

В избр. Сохранено