Виртуальный DPU в GPU: Технический прорыв DeepSeek увеличивает эффективность ИИ?

Виртуальный DPU в GPU: Технический прорыв DeepSeek увеличивает эффективность ИИ? Виртуальный DPU в GPU: Технический прорыв DeepSeek увеличивает эффективность ИИ?

Новый подход DualPipe стал ключом к успеху DeekSeek

  • Один из экспертов описывает его как виртуальный DPU на GPU, который максимально повышает эффективность пропускной способности.
  • Несмотря на то что DeepSeek использует только Nvidia GPU, возникает вопрос, насколько хорошо бы показал себя AMD Instinct.

Китайский искусственный интеллект DeepSeek поразил технологическую индустрию, став достойной альтернативой ChatGPT от OpenAI за гораздо меньшую стоимость.

Реклама

Согласно недавней исследовательской работе, DeepSeek V3 был обучен на кластере из 2048 Nvidia H800 GPU. Для предварительного обучения было затрачено 2.79 миллиона часов GPU, а общие затраты составили около 5.58 миллиона долларов.

Как именно разработчикам DeepSeek удалось достигнуть этого успеха, скорее всего, стало возможным благодаря изощренным хакам. Один из них – это алгоритм DualPipe, который обеспечивает эффективный параллелизм в потоках.

Виртуальный DPU на GPU

DeepSeek — это продвинутая модель языка, основанная на Механизме экспертов (MoE), которая оптимизирует производительность за счет выборочной активации наиболее релевантных частей своей архитектуры для каждой задачи. В третьей версии модели, DeepSeek-V3, используется 671 миллиард параметров, из которых для каждой предсказанной токены активируются только 37 миллиардов. Такая избирательная активация позволяет значительно сократить вычислительные затраты, сохраняя при этом высокую точность и производительность.

DualPipe: оптимизация передачи данных

Созданный DeepSeek алгоритм DualPipe накладывает вычисления вперед и назад, снижает задержки и оптимизирует перемещение данных через GPU. При эффективном управлении коммуникацией, он минимизирует время простоя и динамически распределяет вычислительные ядра GPU между вычислениями и коммуникацией. Это предотвращает узкие места при передаче данных по мере увеличения масштаба модели.

Комментарий к статье на The Next Platform описывает DualPipe как «создание виртуального DPU на самом GPU для управления all-to-all коммуникациями,» что подчеркивает его роль в оптимизации передачи данных.

Технические особенности

Для обеспечения достаточной вычислительной производительности DualPipe были разработаны особые ядра для перекрестных узловых коммуникаций, чтобы сократить количество SMs, задействованных в коммуникациях. Реализация данных ядер была скоординирована с алгоритмом MoE и топологией сети кластера. В кластере все GPU перекрестно связаны через IB, а внутреузловые коммуникации управляются посредством NVLink.

Источник: TechRadar

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама