Более 170 000 видеороликов YouTube являются частью массивного набора данных, который использовался для обучения систем искусственного интеллекта некоторыми крупнейшими технологическими компаниями, согласно расследованию Proof News, совместно с Wired. Apple, Anthropic, Nvidia и Salesforce — среди компаний, которые использовали данные «Субтитры YouTube», извлеченные с видеоплатформы без разрешения. Тренировочный набор данных представляет собой коллекцию субтитров, взятых из видеороликов YouTube более чем из 48 000 каналов — в нем нет изображений из видеороликов.
Видеоролики от популярных создателей, таких как MrBeast и Marques Brownlee, а также отрывки из новостных материалов от ABC News, BBC и The New York Times, содержатся в наборе данных. Более 100 видеороликов от The Verge есть в наборе данных, а также множество других видеороликов от Vox.
«Apple получила данные для своего искусственного интеллекта от нескольких компаний», — написал Браунли, известный под псевдонимом MKBHD, в посте на X. «Одна из них извлекла огромное количество данных/транскриптов из видеороликов на YouTube, включая мой». Он добавил: «это будет проблемой, развивающейся в течение длительного времени».
YouTube не ответила немедленно на запрос The Verge.
В рамках своего расследования Proof News также выпустила интерактивный инструмент поиска. Вы можете использовать его функцию поиска, чтобы увидеть, есть ли ваш контент — или вашего любимого ютубера — в наборе данных.
Набор данных субтитров является частью более крупной коллекции материалов из некоммерческой организации EleutherAI под названием The Pile, открытой коллекции, которая также содержит наборы данных книг, статей Википедии и многое другое. В прошлом году анализ одного набора данных под названием Books3 показал, чьи произведения использовались для обучения систем искусственного интеллекта, и набор данных был упомянут в судебных исках авторов против компаний, которые его использовали для обучения искусственного интеллекта.
Компании по искусственному интеллекту редко добровольно раскрывают данные, используемые в их системах искусственного интеллекта; как именно используется контент YouTube, стало ключевым вопросом в последние месяцы. В марте, когда OpenAI представила свою мощную систему генерации видеороликов Sora, главный технический директор Мира Мурати постоянно уклонялась от вопросов о том, обучен ли систему видеороликам на YouTube.
«Я не буду вдаваться в подробности данных, которые были использованы, но эти данные были общедоступными или лицензированными», — сказала она в то время The Wall Street Journal. На давление Journal относительно контента YouTube конкретно Murati сказала, что «не была уверена в этом».
В предыдущих интервью генеральный директор YouTube Нил Мохан заявил, что использование видеоконтента для обучения искусственного интеллекта — включая транскрипты — нарушило бы условия платформы. И в мае в одном из выпусков Decoder генеральный директор Google Сундар Пичаи согласился с оценкой Мохана о том, что если OpenAI действительно обучил Sora на контенте YouTube, это нарушило бы условия YouTube.
«У нас есть условия, и мы ожидаем, что люди будут соблюдать эти условия при создании продукта, вот как я отношусь к этому,» — сказал Пичаи.
Источник: The Verge