Искусственный интеллект и создание изображений: обновление от Google Gemini
Искусственный интеллект (ИИ) способен создавать впечатляющие изображения, однако нередко они содержат странные визуальные ошибки, такие как люди с лишними зубами или городские пейзажи с улицами в стиле Эшера. Google Gemini работает над обновлением своего инструмента создания изображений на основе ИИ, чтобы устранить подобные проблемы.
Обновление будет включать функцию точной настройки, которая позволит пользователям вносить детализированные изменения в сгенерированные ИИ изображения. В настоящее время текстово-графические инструменты Google Gemini не позволяют редактировать изображение после его создания. Пользователи вынуждены подавать новые запросы, надеясь получить исправленное изображение, что может быть утомительно, особенно в случае мелких, но заметных ошибок.
Два метода редактирования
Согласно информации, найденной в коде, функция точной настройки будет включать два метода редактирования:
-
Внесение изменений через запрос:
- Пользователь может подать запрос на изменение одной детали в уже сгенерированном изображении. Например, если изображение нравится, но его нужно переместить в городской пейзаж, можно оставить робота и птицу, но изменить фон.
- Интерактивное редактирование:
- Пользователь может отметить область изображения, которую он хочет изменить, с помощью пальца или стилуса. После выделения можно описать необходимые изменения, и Gemini поймет, что инструкции относятся только к указанной части изображения.
Преимущества точной настройки
Эти инструменты редактирования будут особенно полезны для специалистов в областях графического дизайна, маркетинга и социальных сетей, где важны визуальная точность и быстрота выполнения задач. Google Gemini сможет лучше удовлетворять потребности художников, дизайнеров и обычных пользователей, стремящихся создавать впечатляющий визуальный контент быстрее и качественнее.
Точная дата релиза новых функций пока неизвестна, но их появление в коде свидетельствует о скором выходе. Это также сочетается с другими новыми функциями, такими как изображение поиска Ask Photos.
Конкуренция с другими ИИ-редакторами
Google не будет первым, кто внедрит редакторские инструменты для ИИ-изображений. Подобные методы уже доступны в таких моделях, как Dall-E от OpenAI. Пользователи ChatGPT могут запрашивать изменения в уже созданных изображениях или выделять их части для последующего редактирования. Аналогичные функции присутствуют у многих других ИИ-создателей изображений, таких как Ideogram.ai и Adobe Firefly. Тем не менее, внедрение этих инструментов точной настройки станет значимым техническим шагом для Google Gemini и поможет компании конкурировать с другими лидерами в области генеративного ИИ.
Источник: TechRadar