- Nvidia H800 была выпущена в марте 2023 года и является упрощенной версией H100.
- Она значительно медленнее, чем Nvidia H200 и серия Instinct от AMD.
- Эти искусственные ограничения заставили инженеров DeepSeek проявить инновации.
Предполагалось, что Соединенные Штаты останутся безусловным мировым лидером в области ИИ, особенно после недавнего объявления президента Дональда Трампа о проекте Stargate — масштабной инициативе стоимостью 500 миллиардов долларов для укрепления инфраструктуры ИИ в США. Однако на этой неделе произошел кардинальный сдвиг благодаря появлению китайского DeepSeek. Разработанный за небольшую часть стоимости своих американских аналогов, DeepSeek неожиданно ворвался на рынок и оказал такое влияние, что стоимость американских технологических акций упала на 1 триллион долларов, причем наиболее пострадала Nvidia.
Несмотря на секретность, присущую любым разработкам в Китае, недавно опубликованный технический документ дает некоторое представление о технологиях, которые стоят за китайским эквивалентом ChatGPT.
В 2022 году США запретили импорт передовых графических процессоров Nvidia в Китай, чтобы ужесточить контроль над критически важными технологиями ИИ, и с тех пор ввели дополнительные ограничения. Тем не менее, это не остановило DeepSeek. Согласно техническому документу, компания обучила свою модель V3 на кластере из 2,048 графических процессоров Nvidia H800 — урезанных версий H100.
Экономичное обучение
H800 был выпущен в марте 2023 года в соответствии с ограничениями на экспорт из США в Китай и содержит 80GB HBM3 памяти с пропускной способностью 2TB/s. Он уступает более новому H200, который имеет 141GB HBM3e памяти и пропускную способность 4.8TB/s, а также Instinct MI325X от AMD, который превосходит их обоих с 256GB HBM3e памяти и 6TB/s пропускной способностью.
Каждый узел в кластере, на котором обучался DeepSeek, содержит 8 графических процессоров, соединенных посредством NVLink и NVSwitch для внутрисистемной связи, в то время как InfiniBand обеспечивает связь между узлами. H800 имеет более низкую пропускную способность NVLink по сравнению с H100, что, естественно, влияет на производительность коммуникации между несколькими графическими процессорами.
Для предобучения и тонкой настройки на 14,8 триллиона токенов DeekSeek-V3 потребовалось 2,79 миллиона GPU-часов, используя комбинацию параллелизма конвейеров и данных, оптимизацию памяти и инновационные методы квантизации.
Таким образом, благодаря стоимости в $2 за GPU-час, обучение модели V3 обошлось в $5,58 миллиона.
Источник: TechRadar