Главная страницаТехнологииИсследование: компании используют контент с YouTube для обучения искусственного интеллекта без разрешения

Технологии

Исследование: компании используют контент с YouTube для обучения искусственного интеллекта без разрешения

17.07.2024

Для работы моделей искусственного интеллекта требуется как можно больше полезных данных, но некоторые из крупнейших разработчиков ИИ частично полагаются на транскрибированные видео с YouTube без разрешения от создателей, нарушая собственные правила YouTube, как выяснилось в ходе расследования журналами Proof News и Wired.

Обе публикации раскрыли, что Apple, Nvidia, Anthropic и другие крупные компании по искусственному интеллекту обучали свои модели с использованием набора данных субтитров YouTube, включающего транскрипты практически 175 000 видеороликов с 48 000 каналов, все это без ведома создателей видео.

Набор данных субтитров YouTube включает тексты субтитров видеороликов, часто с переводами на несколько языков. Набор данных был создан EleutherAI, описавшим цель набора данных как снижение барьеров для развития ИИ для тех, кто не в крупных технологических компаниях. Это лишь один компонент гораздо более крупного набора данных EleutherAI под названием Pile. Помимо транскриптов YouTube, в Pile также содержатся статьи из Википедии, выступления Европарламента и, согласно отчету, даже электронные письма от Enron.

Однако Pile имеет много поклонников среди крупных технологических компаний. Например, Apple использовала Pile для обучения своей модели искусственного интеллекта OpenELM, в то время как модель искусственного интеллекта Salesforce, выпущенная два года назад, обучалась с использованием Pile и с тех пор была скачана более 86 000 раз.

Набор данных субтитров YouTube включает видеоролики популярных каналов в различных областях: новости, образование, развлечения. Среди них контент от крупных звезд YouTube, таких как MrBeast и Marques Brownlee. Все они использовались для обучения моделей искусственного интеллекта. Proof News создал поисковый инструмент, который позволяет искать видеоролики или каналы в коллекции. В коллекции есть даже несколько видеороликов TechRadar, как показано ниже.

(Источник изображения: Proof News)

Набор данных субтитров YouTube, кажется, противоречит правилам использования YouTube, которые явно запрещают автоматизированный сбор видеороликов и связанных данных. Тем не менее именно на этом полагался набор данных, сценарий загружал субтитры через API YouTube. В ходе расследования оказалось, что автоматическая загрузка касалась видеороликов с почти 500 ключевыми словами.

Открытие вызвало много удивления и гнева у создателей контента YouTube, которых опрошали Proof и Wired. Опасения относительно несанкционированного использования контента оправданы, и некоторые создатели были возмущены идеей использования их работ без оплаты или разрешения в моделях ИИ. Особенно это правда для тех, кто узнал, что в набор данных входят транскрипты удаленных видеороликов, и в одном случае данные поступают от создателя, который впоследствии удалил свое онлайн-присутствие в целом.

В отчете не было комментариев от EleutherAI. Однако отмечается, что организация описывает свою миссию как демократизацию доступа к технологиям ИИ путем выпуска обученных моделей. Если судить по этому набору данных, это может противоречить интересам создателей контента и платформ. Правовые и регуляторные битвы вокруг ИИ уже были сложными. Это открытие, скорее всего, сделает этический и правовой аспекты развития ИИ еще более тонкими. Легко предположить баланс между инновациями и этической ответственностью для ИИ, но реализация будет намного сложнее.