По данным нового исследования, данные для обучения генеративных моделей ИИ, таких как Midjourney и ChatGPT, начинают иссякать.
Мир искусственного интеллекта стремительно развивается. В то время как суды решают, является ли использование защищённых авторским правом текстов, изображений и видео для обучения ИИ моделям «добросовестным использованием», как утверждают технологические компании, те же фирмы уже сталкиваются с нехваткой новых данных для обработки.
С распространением генеративного ИИ наблюдается хорошо задокументированный откат, и многие пользователи начали ограничивать доступ к своим данным в сети, включая фотографов.
Группа исследователей из MIT провела исследование, проанализировав 14 000 веб-доменов, включенных в три основных набора данных для обучения ИИ.
Исследование, опубликованное Data Provenance System, выявило «нарастающий кризис согласия», так как онлайн-издатели ограничивают доступ к своим данным для ИИ.
Учёные изучили наборы данных C4, RefineWeb и Dolma и обнаружили, что пять процентов всех данных теперь ограничены в использовании. Но эта цифра увеличивается до 25 процентов, если рассматривать источники наивысшего качества. Генеративному ИИ нужны качественные данные для создания хороших моделей.
Файл robots.txt, старый метод, позволяющий владельцам сайтов запрещать автоматизированным ботам сканировать их страницы, всё чаще используется для блокировки сбора данных технологическими компаниями.
Некоторые руководители ИИ опасаются «стены данных». Владельцы данных, такие как фотографы, начинают проявлять недоверие к индустрии ИИ и создают препятствия.
Индустрия ИИ долгое время обвинялась в извлечении прибыли из работы художников, что стало предметом нескольких текущих судебных исков, включая иски фотографов против таких компаний, как Google, Midjourney и Stable Diffusion.
Однако файлы robots.txt не имеют юридической силы. Они могут служить аналогом таблички «не заходить» для данных, но способы их принудительного исполнения отсутствуют.
OpenAI, которая управляет DALL-E и ChatGPT, заявляет, что уважает robots.txt. Такая же позиция у крупных поисковых систем и компании Anthropic. Тем не менее, некоторые участники рынка обвиняются в игнорировании этих файлов.
По словам Ясина Жерните, исследователя машинного обучения в Hugging Face, «ожидаемо, что мы видим ответную реакцию от создателей данных после того, как их тексты, изображения и видео, размещенные в интернете, используются для разработки коммерческих систем, которые иногда напрямую угрожают их средствам к существованию.»
Существует опасение, что если все данные для обучения ИИ будут доступны только по лицензии, то такие игроки, как исследователи и гражданское общество, могут быть исключены из участия в развитии технологий.
Источник: PetaPixel