Главная страницаТехнологииMeta стремится обогнать OpenAI: «Нам необходимо научиться прокладывать путь и выиграть эту гонку»

Технологии

Meta стремится обогнать OpenAI: «Нам необходимо научиться прокладывать путь и выиграть эту гонку»

15.01.2025

Сообщается, что Meta разрабатывает собственную поисковую систему на базе искусственного интеллекта.

Важный судебный процесс по авторским правам против компании Meta раскрыл множество внутренних коммуникаций о планах компании по разработке ее открытых моделей искусственного интеллекта Llama. Эти обсуждения включают в себя попытки избежать «медийного освещения, предполагающего использование пиратского набора данных».

Данные сообщения, которые были частью ряда доказательств, обнародованных судом в Калифорнии, указывают на использование Meta защищенной авторским правом информации для обучения своих систем искусственного интеллекта. Данные также показывают попытки Meta скрыть эту практику — в стремлении опередить конкурентов, таких как OpenAI и Mistral.

Подробности из сообщений

В октябре 2023 года в письме исследователю Meta AI Хьюго Туврону, Ахмад Аль-Дахле, вице-президент Meta по генеративному ИИ, написал, что целью компании должна стать технология GPT-4, объявленная OpenAI в марте 2023 года. Аль-Дахле добавил, что Meta необходимо научиться создавать передовые технологии и выигрывать в этой гонке.

Эти планы, по-видимому, касались использования пиратского книжного сайта Library Genesis (LibGen) для обучения ИИ-систем. В неопределенной дате письма от директора по продукту Meta Сони Теаканата, отправленного вице-президенту по исследованию ИИ Жоэль Пино, обсуждалось использование LibGen для внутренних задач, для оценки результатов в блоге или для создания модели, обученной на сайте.

Теаканат упомянул, что «GenAI получил одобрение на использование LibGen для Llama3… с рядом согласованных мер безопасности» после передачи на рассмотрение «MZ» — предположительно, гендиректору Meta Марку Цукербергу. Теаканат отметил, что LibGen является «ключевым для достижения передовых результатов», добавив, что, по слухам, OpenAI и Mistral также используют библиотеку для своих моделей.

Ответ Meta и регуляторов

Судебные документы возникли в результате коллективного иска, поданного автором Ричардом Кадри, комиком Сарой Сильверман и другими против Meta. Они обвинили компанию в использовании незаконно полученного контента, защищенного авторским правом, для обучения своих моделей, нарушая законы об интеллектуальной собственности. Meta, как и другие компании в области ИИ, утверждала, что использование защищенного авторскими правами материала для обучающих данных должно входить в рамки законного использования.

Некоторые «смягчающие меры» для использования LibGen включали условия, что Meta должна «удалить данные, явно отмеченные как пиратские/украденные», избегая внешних указаний на использование обучающих данных с сайта. Теаканат также написал, что компании потребуется организовать проверки моделей на риск биологического оружия и других угроз.

Юридические и этические аспекты

Электронная переписка также рассматривала «политические риски», связанные с использованием LibGen, в том числе возможную реакцию регуляторов на медийное освещение, предлагающее использование пиратского контента Meta. Было отмечено, что это может ослабить позиции компании в переговорах с регуляторами.

Другие внутренние документы показывают меры Meta по сокрытию информации об авторских правах в обучающих данных LibGen. Документ с комментариями сотрудников предлагал удалить заголовки авторских прав и идентификаторы документов, такие как строки, содержащие «ISBN», «Copyright», «Все права защищены» или символ авторского права.

Источники данных и пути их пополнения

В июне The New York Times сообщила о напряженной ситуации внутри Meta после появления ChatGPT, указав, что компания исчерпала почти все доступные книги, статьи и стихи на английском языке в интернете. В отчаянии руководители обсуждали возможность покупки Simon & Schuster и найма подрядчиков в Африке для нелегального суммирования книг.

Сообщалось, что крупные лаборатории, такие как OpenAI и Anthropic, столкнулись с нехваткой данных, что означает недостаток новых данных для обучения своих крупных языковых моделей. Многие лидеры отрицают это. Генеральный директор OpenAI Сэм Альтман прямо заявил: «Никакой стены нет». Основатель OpenAI Илья Сутскевер, однако, прямо упомянул о возможности стен данных, заявив: «Мы достигли пика данных и больше их нет. Нам нужно работать с тем, что у нас есть».

Эта нехватка данных привела к поиску новых способов получения уникальных данных. Bloomberg сообщила, что такие компании, как OpenAI и Google, платят цифровым создателям контента за их неиспользованные видеоматериалы для обучения своих моделей.

С ростом амбиций таких компаний, как Meta и OpenAI, в стремлении быстрее развивать свои системы искусственного интеллекта, ситуация неизбежно становится сложнее. Хотя судья частично отклонил коллективный иск Кадри и Сильверман в прошлом году, представленные здесь доказательства могут усилить некоторые части их дела, по мере его продвижения в суде.

Источник: TheVerge