От аутсайдеров к претендентам на трон NVIDIA. Рейтинг китайских GPU-карт
Разбираем 10 ключевых китайских GPU-карт.
10 место: Enflame CloudBlazer T20 (燧原科技)
- Технологии: 12 нм (GlobalFoundries), архитектура DTU 2.0;
- Память: 32 GB HBM2e;
- Производительность: ~160 TFLOPS INT8;
- Софт: TopsRider SDK.
Аналог: NVIDIA A100 (2020) — T20 проигрывает по всем параметрам, включая энергоэффективность.
Что это: Ускоритель второго поколения, ориентированный на тренировку. Выпущен в 2021 году. 12 нм техпроцесс, без поддержки FP4/FP8 в hardware.
Преимущества: Стабильная работа в связке до 8 карт, поддержка PyTorch и TensorFlow. Госпроекты и умные города.
Слабости: Устаревший техпроцесс (12 нм), ограниченная экосистема софта.
Кейс: Дата-центры провинции Ганьсу, China Telecom.
9 место: Iluvatar BiV100 / 天垓100
- Технологии: 7 нм, GPGPU;
- Память: 32 GB HBM2e;
- Производительность: ~15 TFLOPS FP32;
- Софт: DeepSpark (CUDA через vcuda).
Аналог: NVIDIA A100 40GB — сопоставима по памяти, уступает по пропускной способности.
Первая карта Iluvatar CoreX, 2021 год. Первый китайский 7nm GPGPU.
IPO на Гонконгской бирже — январь 2026, выручка +92%.
Преимущества: DeepSpark экосистема, Kubernetes GPU-sharing через HAMi.
Слабости: 32 GB — мало для современных моделей. Уровень A100 2020 года.
Кейс: Шанхайский суперкомпьютерный центр.
8 место: Moore Threads MTT S3000 (摩尔线程)
- Технологии: 12 нм (TSMC), архитектура MUSA (Chunxiao), 22 млрд. транзисторов;
- Память: 32 GB GDDR6;
- Производительность: 15,2 TFLOPS FP32;
- Софт: MUSA, MUSIFY (автоконвертер CUDA).
Аналог: NVIDIA A100 — S3000 проигрывает в 1,3 раза по FP32, значительно по памяти.
Преимущества: Наиболее зрелый CUDA-совместимый стек, среди китайских GPU-стартапов. MUSIFY автоматически конвертирует CUDA-код.
Слабости: 12 нм, GDDR6 вместо HBM, 15 TFLOPS — уровень 2020.
Кейс: Кластерная тренировка MT-infini-3B.
7 место: Moore Threads MTT S4000 (摩尔线程)
- Технологии: MUSA 3.0, 128 Tensor Cores;
- Память: 48 GB GDDR6, 768 GB/s;
- Производительность: 25 TFLOPS FP32, 200 TOPS INT8;
- Интерфейс: PCIe Gen5×16, MTLink;
Аналог: NVIDIA L40S — аналогичная ориентация, но L40S значительно мощнее (183 TFLOPS FP32).
Преимущества: Первая по-настоящему data center-ориентированная карта Moore Threads. MTLink — собственный межкарточный интерконнект.
Слабости: GDDR6 (не HBM). 200 TOPS INT8 — в 5-8 раз меньше H100.
Кейс: Кластерная тренировка до 3B параметров, inference-сервисы.
6 место: Baidu Kunlun P800 (百度昆仑)
- Технологии: 7 нм, Kunlun 3-го поколения;
- Память: 32 GB HBM2e;
- Производительность: ~345 TFLOPS FP16;
- Софт: PaddlePaddle, Kunlun SDK;
- Кластер: 30 000 чипов.
Аналог: NVIDIA A100 80GB — P800 близок по FP16, но уступает по универсальности софта.
Преимущества: Единственный чип в рейтинге от Big Tech. Baidu имеет Ernie 5.0 (2,4 трлн. параметров), облачную платформу Qianfan и гарантированный внутренний спрос.
Слабости: Замкнутая экосистема под PaddlePaddle. 32 GB — недостаточно для больших моделей.
Кейс: Ernie 5.0 training, Baidu Cloud, China Mobile.
5 место: MetaX C500 (沐曦)
- Технологии: 7 нм, архитектура MXMACA;
- Память: 32 GB HBM2e;
- Производительность: 15 TFLOPS FP32 (75% от A100), 120 TFLOPS FP16;
- Софт: MXMACA (CUDA-совместимый).
Аналог: NVIDIA A100 40GB — C500 немного слабее, но с китайской производственной цепочкой.
Преимущества: Первая production-карта MetaX, 2023 год. Кластер на 10 000+ картах в Ningxia. Верифицирована с ChatGLM2-6B (Zhipu AI).
Слабости: FP32 ниже A100 в 1,3 раза. 32 GB — недостаточно для 70B+ моделей.
Кейс: Дата-центр Ningxia, ChatGLM тренировка, облачный инференс.
4 место: Iluvatar BiV150 (天数智芯)
- Технологии: 7 нм (улучшенный), GPGPU;
- Память: 64 GB HBM2e;
- Производительность: ~30+ TFLOPS FP32;
- Софт: DeepSpark, Kubernetes/HAMi.
Аналог: NVIDIA A100 80GB — уступает по пиковой производительности, выигрывает по цене.
Преимущества: Эволюция BiV100 с удвоенной памятью. 64 GB — inference моделей до 32B параметров в FP16. Серверы 512 GB (8 карт).
Слабости: Всё ещё уровень A100. HBM2e (не HBM3).
Кейс:Шанхайский суперкомпьютерный центр, облачные провайдеры.
3 место 🥉: Moore Threads MTT S5000 (摩尔线程)
- Технологии: MUSA последнего поколения;
- Память: 80 GB, 1,6 TB/s;
- Производительность: 1 000 TFLOPS dense AI (FP8), поддержка FP8-FP64;
- Интерконнект: MTLink — 784 GB/s;
- Софт: MUSA, MUSIFY.
Первый китайский GPU с 1 PFLOPS (dense, FP8). Уровень между NVIDIA Hopper и Blackwell.
Флагман Moore Threads, анонс март 2026. Капитализация — 2 682 млрд. юаней.
Преимущества: MTLink 784 GB/s — лучший межкарточный интерконнект среди китайских стартапов. MUSIFY — автоконвертер CUDA.
Слабости: Пока не выпущена в серию. Production-зрелость нужно подтвердить.
Аналог: NVIDIA H100 SXM.
2 место 🥈: MetaX C600 (沐曦)
- Технологии: Современный китайский техпроцесс, MXMACA;
- Память: 144 GB HBM3e;
- Производительность: Поддержка FP8, позиционирование на уровне H200;
- Софт: MXMACA (CUDA-совместимый).
144 GB HBM3e — тот же объём, что у NVIDIA H200. Единственный китайский GPU с competitive memory на уровне топовых NVIDIA.
Преимущества: Флагман MetaX, напрямую конкурирующий с H200. «Полностью отечественное производство». Супернод C550 3D Mesh — до 64 карт.
Слабости: Пиковая производительность пока не раскрыта полностью. Молодой продукт.
Аналог: NVIDIA H200 — прямой конкурент с аналогичным объёмом HBM.
1 место 🏅: Huawei Ascend 950PR / Atlas 350 (华为昇腾)
- Технологии: 7 нм(SMIC), Da Vinci, 53 млрд транзисторов;
- Память: 112 GB HiBL 1.0, 1,4 TB/s;
- Производительность: 1,56 PFLOPS FP4, ~800 TFLOPS FP16;
- Интерконнект: Lingqu, SuperPod до 8 192 карт;
- Софт: CANN Next (CUDA-совместимая модель);
- Энергопотребление: 600W;
- Доля рынка: ~50% (прогноз Bernstein, конец 2026).
Безусловный лидер. Первый китайский чип с аппаратной FP4. 2,87x от H20. DeepSeek V4, ByteDance, Alibaba — подтверждённые клиенты.
Преимущества:
• Единственная в Китае аппаратная FP4 (H200 не имеет FP4, только Blackwell);
• Собственная HBM (HiBL 1.0) — независимость от Samsung/SK Hynix;
• CANN Next — 80% PyTorch-кода работает без переписывания;
• SuperPod до 8 192 карт, 7 партнёров-серверных OEM.
Слабости: 600W, CANN моложе CUDA на 18 лет, 7nm vs 4nm NVIDIA.
Аналог: NVIDIA H200 — по FP4 Ascend 950PR превосходит H200.
Кейсы: DeepSeek V4 (полная миграция), Zhipu GLM-Image (№ 1 Hugging Face), China Mobile (20 млрд. юаней), Alibaba/ByteDance.
Сводные данные
- Ascend 950PR — Техпроцесс: 7 нм; Память: 112 GB; Пик. произв.: 1.56P FP4; Тип памяти: HiBL 1.0; Аналог NVIDIA: \> H200 (FP4);
- MetaX C600 — Техпроцесс: -/-; Память: 144 GB; Пик. произв.: ~ H200; Тип памяти: HBM3e; Аналог NVIDIA: ≈ H200;
- MT S5000 — Техпроцесс: -/-; Память: 80 GB; Пик. произв.: 1000T FP8; Тип памяти: HBM?; Аналог NVIDIA: ≈ H100;
- Iluvatar BiV150 — Техпроцесс: 7 нм; Память: 64 GB; Пик. произв.: ~30T+ FP32; Тип памяти: HBM2e; Аналог NVIDIA: ≈ A100 80G;
- MetaX C500 — Техпроцесс: 7 нм; Память: 32 GB; Пик. произв.: 15T FP32; Тип памяти: HBM2e; Аналог NVIDIA: ≈ A100;
- Kunlun P800 — Техпроцесс: 7 нм; Память: 32 GB; Пик. произв.: 345T FP16; Тип памяти: HBM2e; Аналог NVIDIA: ≈ A100;
- MT S4000 — Техпроцесс: -/-; Память: 48 GB; Пик. произв.: 25T FP32; Тип памяти: GDDR6; Аналог NVIDIA: \< L40S;
- MT S3000 — Техпроцесс: 12 нм; Память: 32 GB; Пик. произв.: 15T FP32; Тип памяти: GDDR6; Аналог NVIDIA: \< A100;
- Iluvatar BiV100 — Техпроцесс: 7 нм; Память: 32 GB; Пик. произв.: ~15T FP32; Тип памяти: HBM2e; Аналог NVIDIA: ≈ A100;
- Enflame T20 — Техпроцесс: 12 нм; Память: 32 GB; Пик. произв.: ~160T INT8; Тип памяти: HBM2e; Аналог NVIDIA: \< A100.
Выводы: перспективы китайских GPU
Текущее состояние: Карты с 10 по 6 место находятся на уровне NVIDIA A100 — трёхлетней давности. Они вполне пригодны для inference небольших и средних моделей, но серьёзно отстают от H100/H200.
Перелом в 2025-2026: Moore Threads S5000 (1000 TFLOPS FP8), MetaX C600 (144 GB HBM3e) и Huawei Ascend 950PR (1,56 PFLOPS FP4) — это совершенно другой уровень. Они не копируют NVIDIA, а идут своими путями.
Главный барьер — софт. CUDA — 18 лет экосистемы. Huawei через CANN Next (80% PyTorch-совместимость), Moore Threads через MUSIFY, MetaX через MXMACA.
Для российских предприятий: Inference 70B-200B — Huawei Ascend 950PR. Гибкая экосистема — Moore Threads S5000 или MetaX C600. Задачи поскромнее (7B-32B) — Iluvatar BiV150, Kunlun P800, S4000.
Методология рейтинга
Рейтинг построен по совокупности факторов: производительность (TFLOPS/FLOPS), объём и пропускная способность памяти, зрелость программного стека, масштабируемость (мульти-GPU), наличие production-кейсов.