Совместная работа Nvidia и xAI над развитием Колосса
- xAI значительно уменьшила количество столкновений потоков при обучении моделей ИИ.
- Платформа Spectrum-X сыграла ключевую роль в обучении семейства ИИ моделей Grok.
Nvidia раскрыла, как кластер суперкомпьютеров «Колосс» от компании xAI управляет 100 тысячами GPU Hopper благодаря платформе Ethernet Networking Spectrum-X от этого производителя чипов. Spectrum-X спроектирована для предоставления огромных возможностей производительности мультиарендным гипермасштабируемым ИИ-платформам, используя сеть RDMA (Remote Directory Memory Access).
Эта платформа внедрена в Колосс, крупнейший в мире суперкомпьютер для искусственного интеллекта, с момента его основания. Компания, принадлежащая Илону Маску, использует кластер для обучения серии Grok крупных языковых моделей (LLM), которые питают чат-ботов для пользователей X.
Функционал построен в сотрудничестве с Nvidia за 122 дня, и в настоящее время xAI планирует расширить его, планируя развертывание в совокупности 200 тысяч GPU Hopper от Nvidia.
Обучение Grok требует серьезной мощности
Модели ИИ Grok чрезвычайно велики, с Grok-1 достигающей 314 миллиардов параметров и Grok-2, превосходящей Claude 3.5 Sonnet и GPT-4 Turbo. Естественно, обучение таких моделей требует значительной сетевой производительности. Используя платформу Spectrum-X от Nvidia, xAI зафиксировала отсутствие деградации функционала или потери пакетов из-за «столкновений потоков» или узких мест в путях сетей ИИ.
xAI сообщила, что смогла поддерживать 95% пропускной способности данных, обеспеченной благодаря возможностям управления перегрузками Spectrum-X. Компания добавила, что такой уровень производительности невозможно достичь в таком масштабе при использовании стандартного Ethernet. При традиционном Ethernet создается множество столкновений потоков и обеспечивается лишь 60% пропускной способности данных, согласно сведениям от Nvidia.
Представитель xAI отметил, что сочетание GPU Hopper и Spectrum-X позволило компании «расширить горизонты обучения ИИ-моделей» и создало «ускоренную и оптимизированную фабрику ИИ». «ИИ становится критически важным и требует повышенной производительности, безопасности, масштабируемости и экономической эффективности», — сказал Гилад Шайнер, старший вице-президент по сетям в Nvidia.
Платформа Nvidia Spectrum-X Ethernet Networking предназначена для предоставления таким инноваторам, как xAI, более быстрого процесса, анализа и выполнения рабочих нагрузок ИИ, что в свою очередь ускоряет развитие, развертывание и выход на рынок ИИ-решений.
Часть платформы Spectrum-X включает в себя коммутатор Ethernet Spectrum SN5600 — он поддерживает скорости портов до 800 Гб/с и основан на коммутаторе Spectrum-4 ASIC, по информации Nvidia. xAI выбрала сочетание коммутатора Spectrum-X SN5600 и NVIDIA BlueField-3 SuperNICs для повышения производительности.
Источник: TechRadar