AI-вывод на краю означает запуск обученных моделей машинного обучения (ML) ближе к конечным пользователям по сравнению с традиционным облачным AI-выводом. AI-вывод на краю ускоряет время отклика моделей ML, позволяя работать в реальном времени приложениям и индустрии, таким как игровая, медицинская, и розничная.
Что такое AI-вывод на краю? Перед тем, как рассмотреть AI-вывод конкретно на краю, стоит понимать, что такое вывод AI в общем. В жизненном цикле разработки AI/ML вывод — это когда обученная модель ML выполняет задачи на новых, ранее не виденных данных, такие как делание предсказаний или генерация контента. AI-вывод происходит, когда конечные пользователи взаимодействуют непосредственно с встроенной в приложение ML моделью. Например, когда пользователь вводит запрос в ChatGPT и получает ответ, время, когда ChatGPT «думает», — это когда происходит вывод, и результат — это результат этого вывода.
AI-вывод на краю является подмножеством вывода AI, при котором ML модель работает на сервере, близком к конечным пользователям; например, в том же регионе или даже в том же городе. Это сокращает задержку до миллисекунд для более быстрого отклика модели, что полезно для приложений в реальном времени, таких как распознавание изображений, обнаружение мошенничества или генерация игровых карт.
Как вывод AI на краю связан с Edge AI? AI-вывод на краю является подмножеством Edge AI. Edge AI включает в себя обработку данных и запуск ML моделей ближе к источнику данных, а не в облаке. Edge AI включает все связанное с Edge AI вычислениями, от краевых серверов (метрокрай) до устройств IoT и телекоммуникационных базовых станций (дальний край). Edge AI также включает обучение на краю, а не только вывод. В этой статье мы сосредоточимся на выводе AI на краевых серверах.
Как вывод на краю сравнивается с облачным выводом? С облачным AI выводом вы запускаете ML модель на удаленном облачном сервере, и данные пользователей отправляются и обрабатываются в облаке. В этом случае конечный пользователь может взаимодействовать с моделью из другого региона, страны или даже континента. В результате задержка облачного вывода составляет от сотен миллисекунд до нескольких секунд. Этот тип AI вывода подходит для приложений, не требующих обработки данных на месте или низкой задержки, например, ChatGPT, DALL-E и другие популярные инструменты GenAI. Вывод на краю отличается в двух связанных аспектах:
- Вывод происходит ближе к конечному пользователю
- Задержка меньше
Как работает AI-вывод на краю? AI-вывод на краю основывается на IT инфраструктуре с двумя основными архитектурными компонентами: сеть с низкой задержкой и серверы с AI чипами. Если вам нужен масштабируемый AI вывод, который может обрабатывать пики нагрузки, вам также нужен контейнерный сервис оркестрации, такой как Kubernetes; это работает на краевых серверах и позволяет вашим ML моделям быстро и автоматически масштабироваться. Сегодня лишь несколько провайдеров имеют инфраструктуру, способную предложить глобальный AI вывод на краю, соответствующий этим требованиям.
Низкозадержечная сеть: Провайдер, предлагающий AI-вывод на краю, должен иметь распределенную сеть точек присутствия на краю (PoPs), где находятся сервера. Чем больше PoPs на краю, тем быстрее время сетевого обмена, что означает, что модели ML реагируют быстрее для конечных пользователей. Провайдер должен иметь десятки или даже сотни PoPs по всему миру и предлагать умную маршрутизацию, которая направляет запрос пользователя к ближайшему краевому серверу для эффективного использования глобально распределенной сети.
Серверы с AI ускорителями: Для сокращения времени вычислений вам необходимо запускать свою ML модель на сервере или виртуальной машине, работающей на ускорителе AI, таком как NVIDIA GPU. Существуют GPU, специально разработанные для AI вывода. Например, одна из последних моделей, NVIDIA L40S, обладает до 5 раз более быстрой производительностью вывода, чем GPU A100 и H100, которые в основном разработаны для обучения больших моделей ML, но также используются и для вывода. GPU NVIDIA L40S в настоящее время является лучшим ускорителем AI для выполнения AI вывода.
Оркестрация контейнеров: Развертывание ML моделей в контейнерах делает модели масштабируемыми и переносимыми. Провайдер может управлять инструментом оркестрации контейнеров от вашего имени. В этой установке инженер ML, стремящийся интегрировать модель в приложение, просто загружает образ контейнера с ML моделью и получает готовый к использованию конечный точку ML модели. Когда происходит пик нагрузки, контейнеры с вашей ML моделью автоматически масштабируются, а затем снова масштабируются, когда нагрузка уменьшается.
Основные преимущества AI-вывода на краю AI-вывод на краю предлагает три ключевых преимущества в различных отраслях или сценариях использования: низкую задержку, безопасность и суверенитет, а также экономичность.
Низкая задержка Чем ниже задержка сети, тем быстрее ваша модель будет отвечать. Если средняя задержка сети провайдера составляет менее 50 мс, это подходит для большинства приложений, требующих практически моментального ответа. В сравнении с облаком, задержка в облаке может составлять несколько сотен миллисекунд, в зависимости от вашего местоположения относительно облачного сервера. Это заметное различие для конечного пользователя, при этом задержка в облаке может привести к раздражению, поскольку пользователи остаются в ожидании ответа от своих AI.
Обеспечение безопасности и суверенитета Хранение данных на краю — то есть локально для пользователя — упрощает соблюдение местных законов и нормативов, таких как GDPR и его эквивалентов в других странах. Провайдер вывода на краю должен настроить инфраструктуру вывода в соответствии с местными законами, чтобы гарантировать правильную защиту вас и ваших пользователей.
Вывод на краю также повышает конфиденциальность и конфиденциальность данных ваших конечных пользователей, поскольку данные обрабатываются локально, а не отправляются на удаленные облачные сервера. Это снижает поверхность атаки и уменьшает риск утечки данных во время передачи.
Экономическая эффективность Обычно провайдер взимает плату только за использованные вычислительные ресурсы ML модели. Это, вместе с тщательно настроенным автомасштабированием и расписанием выполнения модели, может значительно снизить издержки на вывод. Кому следует использовать AI-вывод на краю?
Вот некоторые типичные сценарии, когда вывод на краю был бы оптимальным выбором:
- Низкая задержка критична для вашего приложения и пользователей. Широкий спектр приложений в реальном времени, от распознавания лиц до анализа торгов, требует низкой задержки. Вывод на краю предоставляет самый низкий вариант вывода задержки.
- Ваша база пользователей распределена по нескольким географическим местам. В этом случае вы должны обеспечить одинаковый пользовательский опыт — то есть одинаково низкую задержку — всем вашим пользователям независимо от их местоположения. Для этого требуется глобально распределенная краевая сеть.
- Вы не хотите заниматься обслуживанием инфраструктуры. Если поддержка облачной и AI инфраструктуры не входит в ваши основные бизнес-процессы, стоит делегировать эти процессы опытному партнеру. Тогда вы можете сосредоточить свои ресурсы на развитии ваших приложений.
- Вы хотите хранить свои данные локально, например, в стране, где они генерируются. В этом случае вам нужно выполнять вывод AI как можно ближе к конечным пользователям. Глобально распределенная краевая сеть может удовлетворить эту потребность, в то время как облако, вероятно, не предложит степень распределения, которую вы требуете.
В каких отраслях AI-вывод на краю принесет наибольшую пользу? AI-вывод на краю приносит пользу в любой отрасли, где используется AI/ML, но особенно там, где разрабатываются приложения в реальном времени. В технологическом секторе это включает генеративные приложения AI, чатботы и виртуальных помощников, а также увеличение данных и AI инструменты для программистов. В игровой индустрии это будут генерация контента и карт, аналитика игроков в реальном времени и настройка и разговор в реальном времени AI ботов. Для розничного рынка типичные приложения будут включать умные продуктовые магазины с самообслуживанием и мерчандайзингом, виртуальную примерку, а также прогнозы и рекомендации контента.
В производстве выгоды будут заключаться в обнаружении дефектов в реальном времени в производственных конвейерах, приложениях VR/VX и быстром обратном ответе, а медиа и развлекательной отрасли это будут анализ контента, мгновенный перевод и автоматизированная транскрипция. Другой сектор, разрабатывающий приложения в реальном времени, это автомобильная отрасль, особенно быстрый ответ для автономных транспортных средств, персонализация транспортных средств, продвинутая помощь водителю и обновления трафика в реальном времени.
Вывод Для организаций, стремящихся развернуть приложения в реальном времени, AI-вывод на краю является важным компонентом их инфраструктуры. Он значительно сокращает задержку, обеспечивая беспрецедентно быстрое время отклика. Для конечных пользователей это означает бесшовный, более привлекательный опыт, будь то игры в сети, использование чатботов или покупки онлайн с виртуальным примерочным сервисом. Усиленная безопасность данных позволяет бизнесам предложить высококачественные услуги AI, защищая данные пользователей. AI-вывод на краю является критическим условием для развертывания продуктов AI/ML в масштабе, способствуя инновациям и эффективности в области AI/ML во многих отраслях.
Источник: TechRadar