Meta выпускает SAM 2 — модель ИИ для сегментации объектов на видео
Компания Meta представила новую модель искусственного интеллекта, способную маркировать и отслеживать любые объекты на видео. Модель Segment Anything Model 2 (SAM 2) расширяет возможности своей предшественницы, SAM, которая работала только с изображениями, что открывает новые горизонты для редактирования и анализа видео.
Технический прорыв SAM 2
Реалтайм сегментация, предлагаемая SAM 2, представляет собой значительный технический скачок. Модель демонстрирует, как ИИ может обрабатывать движущиеся изображения и различать элементы на экране даже при их перемещении или исчезновении из кадра.
Что такое сегментация?
Сегментация — это процесс определения, какие пиксели в изображении принадлежат каким объектам. Искусственный интеллект, способный к такому процессу, значительно упрощает обработку или редактирование сложных изображений. Именно это стало прорывом первой версии SAM. SAM помогал сегментировать сонарные изображения коралловых рифов, анализировал спутниковые снимки для оказания помощи в чрезвычайных ситуациях и даже выявлял рак кожи на клеточных изображениях.
Расширенные возможности для видео
Теперь SAM 2 способен работать с видео, что стало возможным только недавно. В рамках запуска SAM 2 компания Meta представила базу данных из 50 000 видео, использованных для обучения модели. Кроме того, Meta упомянула о 100 000 других видео, задействованных в процессе. Реалтайм сегментация видео требует значительных вычислительных ресурсов, поэтому хотя SAM 2 в данный момент доступен бесплатно, это может измениться в будущем.
Успехи сегментации
С использованием SAM 2, видеоредакторы смогут выделять и манипулировать объектами в сцене гораздо проще, чем с помощью текущих программ и методов, основанных на ручной корректировке каждого кадра. Meta видит потенциал SAM 2 в революционизировании интерактивного видео: пользователи смогут выбирать и изменять объекты в реальном времени или в виртуальных пространствах благодаря возможностям ИИ.
Будущее системы компьютерного зрения
Meta считает, что SAM 2 может сыграть важную роль в развитии и обучении систем компьютерного зрения, особенно в автономных транспортных средствах. Точное и эффективное отслеживание объектов необходимо для безопасной интерпретации и навигации в окружающей среде. Возможности SAM 2 могут ускорить процесс аннотирования визуальных данных, обеспечивая высококачественные тренировочные данные для этих систем ИИ.
Конкуренты и будущее ИИ
Несмотря на достижения Meta, другие разработчики ИИ активно работают над созданием своих версий. Например, компания Google исследует функции резюмирования видеозаписей и распознавания объектов, которые тестирует на YouTube. Также компания Adobe со своими инструментами Firefly AI активно совершенствует возможности редактирования фото и видео с использованием функций, таких как автоматическое заполнение содержимого и автоматическое кадрирование.
Источник: TechRadar