Grok надевает очки, чтобы понимать ваш разговор

Grok-2 запускается на X c генерацией изображений ИИ, мало ограничений и множеством вопросов

Подписчики сервиса X Premium (ранее известного как Twitter) теперь могут не только создавать изображения с помощью AI-ассистента Grok, но и описывать их. Компания xAI, принадлежащая Илону Маску, представила новую функцию анализа визуального контента, позволяющую описывать фотографии, диаграммы и другие изображения с помощью модели Grok-2, которая также используется в AI-чатботе и для создания изображений с помощью Flux AI.

Эта функция делает Grok конкурентоспособным с другими аналогичными решениями, такими как ChatGPT и Gemini. Подписчики X могут попробовать ее, нажав на кнопку в посте с изображением и задав вопрос о содержимом или получив описание изображения.

Реклама

Вместе с новой функцией Grok также представил новый бенчмарк под названием RealWorldQA, предназначенный для демонстрации возможности модели описывать реальные изображения, включая пространство между объектами. Компания утверждает, что RealWorldQA демонстрирует, что Grok не уступает и даже превосходит своих конкурентов в объяснении изображений, несмотря на то, что технология ещё находится в стадии разработки.

Как иллюстрация, Grok способен анализировать сложные многоэтапные изображения и объяснять их суть. Он даже может разъяснить шутку, хотя, как это часто бывает, объяснение шутки делает её менее смешной. Это говорит о том, что xAI продолжает внедрять новые функции для Grok, особенно мультимодальные инструменты. Возможно, в будущем Grok сможет объяснять аудиовизуальный контент так же, как и визуальные материалы.

Одна из нерешённых проблем — как визуальный анализ Grok может отразить беспорядочное создание изображений, игнорирующее авторские права. Это уже стало проблемой для пользователей, работающих с изображениями Марио, когда правообладатели начали предъявлять претензии. Интересно, будет ли AI определять изображения, такие как Марио, или интеллектуальную собственность как таковые, или использовать более общие термины.

Учитывая, кто владеет xAI, можно предположить значительный потенциал этой функции для других технологических компаний Маска, таких как Tesla. Способность распознавать людей и объекты вокруг, а также их расположение, могла бы оказать поддержку в разработке полуавтономного вождения. То же самое относится и к многократно обещанным человекоподобным роботам от Tesla, которые находятся в стадии разработки последние несколько лет.

Источник: TechRadar

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама