Meta стремится обогнать OpenAI: «Нам необходимо научиться прокладывать путь и выиграть эту гонку»

Сообщается, что Meta разрабатывает собственную поисковую систему на базе искусственного интеллекта. Сообщается, что Meta разрабатывает собственную поисковую систему на базе искусственного интеллекта.

Важный судебный процесс по авторским правам против компании Meta раскрыл множество внутренних коммуникаций о планах компании по разработке ее открытых моделей искусственного интеллекта Llama. Эти обсуждения включают в себя попытки избежать «медийного освещения, предполагающего использование пиратского набора данных».

Данные сообщения, которые были частью ряда доказательств, обнародованных судом в Калифорнии, указывают на использование Meta защищенной авторским правом информации для обучения своих систем искусственного интеллекта. Данные также показывают попытки Meta скрыть эту практику — в стремлении опередить конкурентов, таких как OpenAI и Mistral.

Реклама

Подробности из сообщений

В октябре 2023 года в письме исследователю Meta AI Хьюго Туврону, Ахмад Аль-Дахле, вице-президент Meta по генеративному ИИ, написал, что целью компании должна стать технология GPT-4, объявленная OpenAI в марте 2023 года. Аль-Дахле добавил, что Meta необходимо научиться создавать передовые технологии и выигрывать в этой гонке.

Эти планы, по-видимому, касались использования пиратского книжного сайта Library Genesis (LibGen) для обучения ИИ-систем. В неопределенной дате письма от директора по продукту Meta Сони Теаканата, отправленного вице-президенту по исследованию ИИ Жоэль Пино, обсуждалось использование LibGen для внутренних задач, для оценки результатов в блоге или для создания модели, обученной на сайте.

Теаканат упомянул, что «GenAI получил одобрение на использование LibGen для Llama3… с рядом согласованных мер безопасности» после передачи на рассмотрение «MZ» — предположительно, гендиректору Meta Марку Цукербергу. Теаканат отметил, что LibGen является «ключевым для достижения передовых результатов», добавив, что, по слухам, OpenAI и Mistral также используют библиотеку для своих моделей.

Ответ Meta и регуляторов

Судебные документы возникли в результате коллективного иска, поданного автором Ричардом Кадри, комиком Сарой Сильверман и другими против Meta. Они обвинили компанию в использовании незаконно полученного контента, защищенного авторским правом, для обучения своих моделей, нарушая законы об интеллектуальной собственности. Meta, как и другие компании в области ИИ, утверждала, что использование защищенного авторскими правами материала для обучающих данных должно входить в рамки законного использования.

Некоторые «смягчающие меры» для использования LibGen включали условия, что Meta должна «удалить данные, явно отмеченные как пиратские/украденные», избегая внешних указаний на использование обучающих данных с сайта. Теаканат также написал, что компании потребуется организовать проверки моделей на риск биологического оружия и других угроз.

Юридические и этические аспекты

Электронная переписка также рассматривала «политические риски», связанные с использованием LibGen, в том числе возможную реакцию регуляторов на медийное освещение, предлагающее использование пиратского контента Meta. Было отмечено, что это может ослабить позиции компании в переговорах с регуляторами.

Другие внутренние документы показывают меры Meta по сокрытию информации об авторских правах в обучающих данных LibGen. Документ с комментариями сотрудников предлагал удалить заголовки авторских прав и идентификаторы документов, такие как строки, содержащие «ISBN», «Copyright», «Все права защищены» или символ авторского права.

Источники данных и пути их пополнения

В июне The New York Times сообщила о напряженной ситуации внутри Meta после появления ChatGPT, указав, что компания исчерпала почти все доступные книги, статьи и стихи на английском языке в интернете. В отчаянии руководители обсуждали возможность покупки Simon & Schuster и найма подрядчиков в Африке для нелегального суммирования книг.

Сообщалось, что крупные лаборатории, такие как OpenAI и Anthropic, столкнулись с нехваткой данных, что означает недостаток новых данных для обучения своих крупных языковых моделей. Многие лидеры отрицают это. Генеральный директор OpenAI Сэм Альтман прямо заявил: «Никакой стены нет». Основатель OpenAI Илья Сутскевер, однако, прямо упомянул о возможности стен данных, заявив: «Мы достигли пика данных и больше их нет. Нам нужно работать с тем, что у нас есть».

Эта нехватка данных привела к поиску новых способов получения уникальных данных. Bloomberg сообщила, что такие компании, как OpenAI и Google, платят цифровым создателям контента за их неиспользованные видеоматериалы для обучения своих моделей.

С ростом амбиций таких компаний, как Meta и OpenAI, в стремлении быстрее развивать свои системы искусственного интеллекта, ситуация неизбежно становится сложнее. Хотя судья частично отклонил коллективный иск Кадри и Сильверман в прошлом году, представленные здесь доказательства могут усилить некоторые части их дела, по мере его продвижения в суде.

Источник: TheVerge

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама