Apple, Nvidia, Anthropic, и Salesforce были пойманы на использовании данных YouTube для обучения своих искусственного интеллекта.
Расследование, проведенное Proof News и совместно с Wired, обнаружило, что данные субтитров YouTube были извлечены с платформы видео без разрешения и использованы для обучения моделей искусственного интеллекта. Это не касается изображений видео.
Данные использовались для обучения крупных языковых моделей (LLM), таких как ChatGPT, но это вызывает проблему технических компаний, которые ограбляют данные YouTube для обучения моделей.
YouTube явно заявил, что такое использование видеороликов для обучения искусственного интеллекта нарушает условия платформы. Однако широко признается, что YouTube — это золотая жила данных для генеративного искусственного интеллекта в период, когда гонка за моделями текста к видео только разгоралась.
Apple использовал данные от нескольких компаний для своего искусственного интеллекта
Одна из них сканировала огромное количество данных/транскриптов с видеороликов YouTube, включая мои
Apple технически избегает «вины» здесь, потому что они не те, кто сканирует
Однако это станет нарастающей проблемой на долгое время — Marques Brownlee (@MKBHD)
В наборе данных, используемом Apple и др., были обнаружены примерно 180 000 видеороликов YouTube. Данные были собраны некоммерческой организацией и называются The Pile. Он содержит не только данные YouTube, но также статьи из Википедии, книги и электронные письма Enron.
“The Pile включает очень небольшой поднабор субтитров YouTube,” — говорит представитель Anthropic Дженнифер Мартинез Proof News.
“Условия использования YouTube касаются прямого использования платформы, что отличается от использования набора данных The Pile. Что касается потенциальных нарушений условий пользования YouTube, нам придется обратиться к авторам The Pile.”
Apple, Nvidia и другие не прокомментировали. Также не сделал этого YouTube.
Никто не хочет говорить о данных для обучения
После некоторых начальных проблем, технологические компании не хотят обсуждать, откуда берут данные для обучения для построения генеративных моделей искусственного интеллекта.
С приближением видеогенератора Sora от OpenAI главный технический директор Мира Мурати повторно отказывалась раскрывать данные для обучения для широко обсуждаемого приложения.
“Я не буду подробно останавливаться на данных, которые использовались, но это были данные, предоставленные общественно или лицензированные,” — она сказала The Wall Street Journal в марте.
Генеральный директор YouTube Сундар Пичаи сообщил The Verge, что использование видеоматериала с платформы — включая субтитры — является нарушением условий пользования.
“У нас есть условия и положения, и мы ожидаем, что люди будут следовать этим условиям и положениям при создании продукта, вот как я к этому отношусь,” — сказал Пичаи.
Изображение предоставлено: Фотографии в заголовке лицензированы через Depositphotos.