В последнее время лучшие генераторы изображений с использованием ИИ часто становятся предметом обсуждения в новостях, но не всегда в положительном контексте. Так, ИИ Grok-2, разработанный Илоном Маском, вызвал множество споров из-за отсутствия ограничений на создаваемый контент. Google, напротив, стремится изменить восприятие этой технологии и расширил доступ к своему генератору Imagen 3 для пользователей в США.
Согласно исследовательской работе, Imagen 3 представляет собой модель скрытой диффузии, создающую высококачественные изображения по текстовым запросам. В документе отмечается, что эта модель превосходит другие современные аналоги на момент оценки. При этом отбор контента ограничивается запретом на незаконные и оскорбительные изображения, что делает Imagen 3 конкурентом популярным альтернативам, таким как Midjourney.
Изначально инструмент был представлен в мае 2024 года на мероприятии Google I/O, но тогда доступ был ограничен для избранных пользователей платформы Vertex AI. Сейчас же каждый американец может попробовать его, что свидетельствует о более высокой уверенности Google в своём продукте и в его способности создавать надежные изображения, избегая проблем, с которыми сталкивались другие генераторы изображений на основе ИИ.
Реакция пользователей на Imagen 3 была смешанной. Некоторые заметили, что по сравнению с предыдущей версией модель стала более чувствительной к запросам и блокирует слова, которые раньше пропускались. Например, на Reddit один из пользователей пожаловался на необходимость прикладывать больше усилий для получения нужного изображения, так как случайные слова, такие как «носок» или «вода», могут вызвать срабатывание фильтра. Другой пользователь отметил, что ИИ отказался создавать изображения с безобидными идеями вроде киборга или человека с перекрещенными руками. Тем не менее, многие хвалят высокое качество изображений и отличное распознавание текстов.
Чтобы воспользоваться Imagen 3, нужно находиться на территории США и зарегистрироваться на сайте AI Test Kitchen, используя аккаунт Google. После этого можно начать использовать модель для генерации изображений.
Сообщения пользователей о том, что Imagen 3 имеет больше ограничений по сравнению с предшественником, отражают текущее состояние технологий генерации изображений с помощью ИИ. В последние месяцы такие инструменты часто становились причиной споров, и практически каждую неделю новое изображение, созданное ИИ, вызывает бурные обсуждения в интернете.
Последним вызвавшим споры инструментом стал Grok-2 от Илона Маска. Он доступен только для премиум-пользователей X (ранее Twitter) и использует открытый ресурс Flux. Пользователи обнаружили, что у Grok-2 практически нет ограничений на создаваемые изображения, что привело к созданию контента, как, например, изображения Дональда Трампа и Камалы Харрис, пилотирующих самолет 11 сентября, или изображений с явным нарушением авторских прав.
Google принял более строгий подход к генерации изображений, и пока модель Imagen 3 больше склоняется к осторожности. Насколько изменится ситуация по мере её доработки и уточнения, покажет время. Однако теперь, когда доступ к инструменту получили гораздо больше пользователей, возможно, скоро удастся выяснить, насколько можно раздвинуть его границы.
Источник: TechRadar