Главная страницаApple, Anthropic и другие компании обучали искусственный интеллект с помощью видео на YouTube.

Технологии

Apple, Anthropic и другие компании обучали искусственный интеллект с помощью видео на YouTube.

16.07.2024

Более 170 000 видеороликов YouTube являются частью массивного набора данных, который использовался для обучения систем искусственного интеллекта некоторыми крупнейшими технологическими компаниями, согласно расследованию Proof News, совместно с Wired. Apple, Anthropic, Nvidia и Salesforce — среди компаний, которые использовали данные «Субтитры YouTube», извлеченные с видеоплатформы без разрешения. Тренировочный набор данных представляет собой коллекцию субтитров, взятых из видеороликов YouTube более чем из 48 000 каналов — в нем нет изображений из видеороликов.

Видеоролики от популярных создателей, таких как MrBeast и Marques Brownlee, а также отрывки из новостных материалов от ABC News, BBC и The New York Times, содержатся в наборе данных. Более 100 видеороликов от The Verge есть в наборе данных, а также множество других видеороликов от Vox.

«Apple получила данные для своего искусственного интеллекта от нескольких компаний», — написал Браунли, известный под псевдонимом MKBHD, в посте на X. «Одна из них извлекла огромное количество данных/транскриптов из видеороликов на YouTube, включая мой». Он добавил: «это будет проблемой, развивающейся в течение длительного времени».

YouTube не ответила немедленно на запрос The Verge.

В рамках своего расследования Proof News также выпустила интерактивный инструмент поиска. Вы можете использовать его функцию поиска, чтобы увидеть, есть ли ваш контент — или вашего любимого ютубера — в наборе данных.

Набор данных субтитров является частью более крупной коллекции материалов из некоммерческой организации EleutherAI под названием The Pile, открытой коллекции, которая также содержит наборы данных книг, статей Википедии и многое другое. В прошлом году анализ одного набора данных под названием Books3 показал, чьи произведения использовались для обучения систем искусственного интеллекта, и набор данных был упомянут в судебных исках авторов против компаний, которые его использовали для обучения искусственного интеллекта.

Компании по искусственному интеллекту редко добровольно раскрывают данные, используемые в их системах искусственного интеллекта; как именно используется контент YouTube, стало ключевым вопросом в последние месяцы. В марте, когда OpenAI представила свою мощную систему генерации видеороликов Sora, главный технический директор Мира Мурати постоянно уклонялась от вопросов о том, обучен ли систему видеороликам на YouTube.

«Я не буду вдаваться в подробности данных, которые были использованы, но эти данные были общедоступными или лицензированными», — сказала она в то время The Wall Street Journal. На давление Journal относительно контента YouTube конкретно Murati сказала, что «не была уверена в этом».

В предыдущих интервью генеральный директор YouTube Нил Мохан заявил, что использование видеоконтента для обучения искусственного интеллекта — включая транскрипты — нарушило бы условия платформы. И в мае в одном из выпусков Decoder генеральный директор Google Сундар Пичаи согласился с оценкой Мохана о том, что если OpenAI действительно обучил Sora на контенте YouTube, это нарушило бы условия YouTube.

«У нас есть условия, и мы ожидаем, что люди будут соблюдать эти условия при создании продукта, вот как я отношусь к этому,» — сказал Пичаи.

Источник: The Verge