Понимание GPU-облаков
Существует распространенное заблуждение, что облака GPU в целом одинаковы. Однако это не так. Они создаются на основе разных технологий и архитектур, и у каждого есть свои уникальные вызовы, преимущества и недостатки.
Сегодня ведущие облачные операторы в области ИИ разрабатывают новые схемы для дата-центров GPU, которые используют NVIDIA H100 в Kubernetes или других виртуализованных средах для достижения новых уровней производительности в обработке ИИ.
Для клиентов технические характеристики, как правило, схожи. Провайдеры облачных вычислений в области ИИ хвалятся массивами Nvidia HGX H100 и объемом в 3.2 терабайта InfiniBand. Однако всё это объясняется тем, что они используют одни и те же сетевые карты. Если все облака кажутся одинаковыми с технической точки зрения, то решение клиентов, скорее всего, будет основываться на цене.
Тем не менее, одних только технических характеристик недостаточно, чтобы понять разницу. Например, можно купить Toyota Corolla с мощностью 100 киловатт и Mercedes с такой же мощностью, но это совершенно разные автомобили. Уровень качества сборки, стоимость и пользовательский опыт различаются.
Точно так же обстоит дело и с дата-центрами. Если бы глава финансового отдела занимался проектированием, то это могло бы привести к созданию «Toyota Corolla» среди дата-центров. Конечно, это может подойти некоторым клиентам, но большинство организаций, имея выбор, выберут «Mercedes». Дата-центр, построенный с акцентом на экономию затрат, подойдет не всем, так как он будет медленнее, может предлагать меньше облачного хранилища и даже быть менее безопасным.
GPU-облака
Структура GPU-облаков значительно различается между дата-центрами. Существует заблуждение, что инфраструктура ИИ может быть построена только по референсной архитектуре NVIDIA DGX. Это лишь минимально допустимый базис. Ключевым фактором является то, насколько глубоко организации готовы уйти за его пределы. Провайдеры облаков ИИ разрабатывают значительно различные решения с применением управляющих и сетевых систем хранения, которые могут значительно повысить продуктивность ИИ-вычислений.
Развертывание дата-центров GPU как инфраструктуры для ИИ — это сложная задача, требующая глубокого понимания технологий для максимизации пропускной способности. Качественные управляющие и защитные системы очевидно влияют на пользовательский опыт.
Доступ к хранилищу
Скорость доступа к хранилищу критически важна в ИИ, поскольку приходится иметь дело с очень большими наборами данных, состоящими из, возможно, мелких фрагментов информации. Например, можно рассматривать 100 миллиардов данных, распределенных по сети. Параллельно, с цифровыми медиа, где вы работаете с несколькими тысячами активов, хотя их размер может достигать сотен гигабайт, профиль работы кардинально различен.
Обычные жесткие диски обеспечивают хорошие скорости для цифровых медиа. В то время как для ИИ-нагрузок, где требуются произвольные выборки данных, задача значительно усложняется, ведь нужно извлекать по одному гигабайту часто.
Еще одно важное отличие архитектуры ИИ от традиционных моделей хранения заключается в отсутствии необходимости кэширования данных. Все операции выполняются по прямому запросу. GPU напрямую взаимодействуют с дисками через сеть, минуя ЦП и TCP/IP стек. Это позволяет устранить задержки в сети.
Архитектура инфраструктуры ИИ
Архитектура инфраструктуры ИИ должна быть спроектирована для максимизации вычислительной мощности в свете будущих нагруженных ИИ-задач. Кроме того, сетевые архитектуры должны проектироваться для полного отсутствия конкуренции за ресурсы. Многие организации могут обещать это, но вам нужен провайдер, который сможет обеспечить этот уровень гарантии.
Крупные пользователи ИИ, такие как Tesla и Meta, разрабатывают облачную инфраструктуру для удовлетворения разнообразных требований приложений, позволяя динамически оптимизировать облачные архитектуры ИИ для конкретных задач. Однако большинство облачных провайдеров не имеют такой роскоши предвидеть, что они строят.
Вернувшись к автомобильной аналогии, многие современные транспортные сети не были спроектированы с учетом сегодняшних объемов трафика. Проблема с проектированием дата-центра под текущие или даже предполагаемые цели заключается в том, что дата-центры могут достичь своей максимальной загрузки быстрее, чем вы думаете. Облака должны быть как переоснащены, так и масштабируемы.
Если вы не уверены, под что именно проектируете, нужно создать максимально большой, быстрый и безопасный платформенный сервис. Чтобы оптимизировать пропускную способность, дата-центры требуют высоко распределенной архитектуры хранения с сотнями дисков, генерирующих десятки миллионов операций ввода/вывода в секунду.
Поддерживающая инфраструктура
GPU-облака также зависят от поддерживающей инфраструктуры. Например, если вы используете Kubernetes, необходимы мастер-узлы, узлы для координации, узлы для ввода данных и узлы для управления логами. Облачный провайдер должен обеспечить значительное количество вычислений, не связанных с GPU, в том же регионе.
Создание высококачественных облаков — задача не простая и не дешевая. Многие провайдеры дата-центров называют себя «облаком», но на самом деле это больше похоже на управляемую аппаратную среду. Хотя подписание контрактов на несколько лет и создание объекта, соответствующего требованиям контракта, кажется менее рискованным с финансовой точки зрения, это все же не облако.
Облако — это самообслуживание, управляемое API, когда вы входите в систему, нажимаете кнопку и получаете доступ к необходимым вычислительным мощностям на нужный вам срок. Есть много организаций, которые не имеют ресурсов или нужд для постоянной поддержки дата-центра; им может потребоваться вычислительная мощность лишь на короткий срок, и облако предоставляет такую возможность.
Наконец, важно учитывать потребление энергии. Организации всех масштабов должны не только контролировать, но и улучшать свои объём выбросов. Это связано не только с требованиями со стороны клиентов, но и с нормативами.
В конечном итоге организации должны сотрудничать с надежным провайдером, который сможет предложить поддержку, предоставлять инженерное сопровождение и адаптацию. Бизнес, использующий облачную инфраструктуру, хочет сосредоточиться на своих ключевых преимуществах, а не заниматься управлением облачными системами ИИ, ведь облачные решения должны обеспечивать удобство, безопасность и надежность в режиме по требованию.
Источник: TechRadar