Технологические компании, включая Apple, были пойманы на использовании данных YouTube для обучения моделей ИИ.

YouTube

Apple, Nvidia, Anthropic, и Salesforce были пойманы на использовании данных YouTube для обучения своих искусственного интеллекта.

Реклама

Расследование, проведенное Proof News и совместно с Wired, обнаружило, что данные субтитров YouTube были извлечены с платформы видео без разрешения и использованы для обучения моделей искусственного интеллекта. Это не касается изображений видео.

Данные использовались для обучения крупных языковых моделей (LLM), таких как ChatGPT, но это вызывает проблему технических компаний, которые ограбляют данные YouTube для обучения моделей.

YouTube явно заявил, что такое использование видеороликов для обучения искусственного интеллекта нарушает условия платформы. Однако широко признается, что YouTube — это золотая жила данных для генеративного искусственного интеллекта в период, когда гонка за моделями текста к видео только разгоралась.

В наборе данных, используемом Apple и др., были обнаружены примерно 180 000 видеороликов YouTube. Данные были собраны некоммерческой организацией и называются The Pile. Он содержит не только данные YouTube, но также статьи из Википедии, книги и электронные письма Enron.

“The Pile включает очень небольшой поднабор субтитров YouTube,” — говорит представитель Anthropic Дженнифер Мартинез Proof News.

“Условия использования YouTube касаются прямого использования платформы, что отличается от использования набора данных The Pile. Что касается потенциальных нарушений условий пользования YouTube, нам придется обратиться к авторам The Pile.”

Apple, Nvidia и другие не прокомментировали. Также не сделал этого YouTube.

Никто не хочет говорить о данных для обучения

После некоторых начальных проблем, технологические компании не хотят обсуждать, откуда берут данные для обучения для построения генеративных моделей искусственного интеллекта.

С приближением видеогенератора Sora от OpenAI главный технический директор Мира Мурати повторно отказывалась раскрывать данные для обучения для широко обсуждаемого приложения.

“Я не буду подробно останавливаться на данных, которые использовались, но это были данные, предоставленные общественно или лицензированные,” — она сказала The Wall Street Journal в марте.

Генеральный директор YouTube Сундар Пичаи сообщил The Verge, что использование видеоматериала с платформы — включая субтитры — является нарушением условий пользования.

“У нас есть условия и положения, и мы ожидаем, что люди будут следовать этим условиям и положениям при создании продукта, вот как я к этому отношусь,” — сказал Пичаи.


Изображение предоставлено: Фотографии в заголовке лицензированы через Depositphotos.

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама