Суперкомпьютер xAI Colossus на 100,000 GPU Nvidia Hopper создан на базе сети Nvidia Spectrum-X

Суперкомпьютер xAI Colossus на 100,000 GPU Nvidia Hopper создан на базе сети Nvidia Spectrum-X

Совместная работа Nvidia и xAI над развитием Колосса

  • xAI значительно уменьшила количество столкновений потоков при обучении моделей ИИ.
  • Платформа Spectrum-X сыграла ключевую роль в обучении семейства ИИ моделей Grok.

Nvidia раскрыла, как кластер суперкомпьютеров «Колосс» от компании xAI управляет 100 тысячами GPU Hopper благодаря платформе Ethernet Networking Spectrum-X от этого производителя чипов. Spectrum-X спроектирована для предоставления огромных возможностей производительности мультиарендным гипермасштабируемым ИИ-платформам, используя сеть RDMA (Remote Directory Memory Access).

Реклама

Эта платформа внедрена в Колосс, крупнейший в мире суперкомпьютер для искусственного интеллекта, с момента его основания. Компания, принадлежащая Илону Маску, использует кластер для обучения серии Grok крупных языковых моделей (LLM), которые питают чат-ботов для пользователей X.

Функционал построен в сотрудничестве с Nvidia за 122 дня, и в настоящее время xAI планирует расширить его, планируя развертывание в совокупности 200 тысяч GPU Hopper от Nvidia.

Обучение Grok требует серьезной мощности

Модели ИИ Grok чрезвычайно велики, с Grok-1 достигающей 314 миллиардов параметров и Grok-2, превосходящей Claude 3.5 Sonnet и GPT-4 Turbo. Естественно, обучение таких моделей требует значительной сетевой производительности. Используя платформу Spectrum-X от Nvidia, xAI зафиксировала отсутствие деградации функционала или потери пакетов из-за «столкновений потоков» или узких мест в путях сетей ИИ.

xAI сообщила, что смогла поддерживать 95% пропускной способности данных, обеспеченной благодаря возможностям управления перегрузками Spectrum-X. Компания добавила, что такой уровень производительности невозможно достичь в таком масштабе при использовании стандартного Ethernet. При традиционном Ethernet создается множество столкновений потоков и обеспечивается лишь 60% пропускной способности данных, согласно сведениям от Nvidia.

Представитель xAI отметил, что сочетание GPU Hopper и Spectrum-X позволило компании «расширить горизонты обучения ИИ-моделей» и создало «ускоренную и оптимизированную фабрику ИИ». «ИИ становится критически важным и требует повышенной производительности, безопасности, масштабируемости и экономической эффективности», — сказал Гилад Шайнер, старший вице-президент по сетям в Nvidia.

Платформа Nvidia Spectrum-X Ethernet Networking предназначена для предоставления таким инноваторам, как xAI, более быстрого процесса, анализа и выполнения рабочих нагрузок ИИ, что в свою очередь ускоряет развитие, развертывание и выход на рынок ИИ-решений.

Часть платформы Spectrum-X включает в себя коммутатор Ethernet Spectrum SN5600 — он поддерживает скорости портов до 800 Гб/с и основан на коммутаторе Spectrum-4 ASIC, по информации Nvidia. xAI выбрала сочетание коммутатора Spectrum-X SN5600 и NVIDIA BlueField-3 SuperNICs для повышения производительности.

Источник: TechRadar

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама