Важный судебный процесс по авторским правам против компании Meta раскрыл множество внутренних коммуникаций о планах компании по разработке ее открытых моделей искусственного интеллекта Llama. Эти обсуждения включают в себя попытки избежать «медийного освещения, предполагающего использование пиратского набора данных».
Данные сообщения, которые были частью ряда доказательств, обнародованных судом в Калифорнии, указывают на использование Meta защищенной авторским правом информации для обучения своих систем искусственного интеллекта. Данные также показывают попытки Meta скрыть эту практику — в стремлении опередить конкурентов, таких как OpenAI и Mistral.
Подробности из сообщений
В октябре 2023 года в письме исследователю Meta AI Хьюго Туврону, Ахмад Аль-Дахле, вице-президент Meta по генеративному ИИ, написал, что целью компании должна стать технология GPT-4, объявленная OpenAI в марте 2023 года. Аль-Дахле добавил, что Meta необходимо научиться создавать передовые технологии и выигрывать в этой гонке.
Эти планы, по-видимому, касались использования пиратского книжного сайта Library Genesis (LibGen) для обучения ИИ-систем. В неопределенной дате письма от директора по продукту Meta Сони Теаканата, отправленного вице-президенту по исследованию ИИ Жоэль Пино, обсуждалось использование LibGen для внутренних задач, для оценки результатов в блоге или для создания модели, обученной на сайте.
Теаканат упомянул, что «GenAI получил одобрение на использование LibGen для Llama3… с рядом согласованных мер безопасности» после передачи на рассмотрение «MZ» — предположительно, гендиректору Meta Марку Цукербергу. Теаканат отметил, что LibGen является «ключевым для достижения передовых результатов», добавив, что, по слухам, OpenAI и Mistral также используют библиотеку для своих моделей.
Ответ Meta и регуляторов
Судебные документы возникли в результате коллективного иска, поданного автором Ричардом Кадри, комиком Сарой Сильверман и другими против Meta. Они обвинили компанию в использовании незаконно полученного контента, защищенного авторским правом, для обучения своих моделей, нарушая законы об интеллектуальной собственности. Meta, как и другие компании в области ИИ, утверждала, что использование защищенного авторскими правами материала для обучающих данных должно входить в рамки законного использования.
Некоторые «смягчающие меры» для использования LibGen включали условия, что Meta должна «удалить данные, явно отмеченные как пиратские/украденные», избегая внешних указаний на использование обучающих данных с сайта. Теаканат также написал, что компании потребуется организовать проверки моделей на риск биологического оружия и других угроз.
Юридические и этические аспекты
Электронная переписка также рассматривала «политические риски», связанные с использованием LibGen, в том числе возможную реакцию регуляторов на медийное освещение, предлагающее использование пиратского контента Meta. Было отмечено, что это может ослабить позиции компании в переговорах с регуляторами.
Другие внутренние документы показывают меры Meta по сокрытию информации об авторских правах в обучающих данных LibGen. Документ с комментариями сотрудников предлагал удалить заголовки авторских прав и идентификаторы документов, такие как строки, содержащие «ISBN», «Copyright», «Все права защищены» или символ авторского права.
Источники данных и пути их пополнения
В июне The New York Times сообщила о напряженной ситуации внутри Meta после появления ChatGPT, указав, что компания исчерпала почти все доступные книги, статьи и стихи на английском языке в интернете. В отчаянии руководители обсуждали возможность покупки Simon & Schuster и найма подрядчиков в Африке для нелегального суммирования книг.
Сообщалось, что крупные лаборатории, такие как OpenAI и Anthropic, столкнулись с нехваткой данных, что означает недостаток новых данных для обучения своих крупных языковых моделей. Многие лидеры отрицают это. Генеральный директор OpenAI Сэм Альтман прямо заявил: «Никакой стены нет». Основатель OpenAI Илья Сутскевер, однако, прямо упомянул о возможности стен данных, заявив: «Мы достигли пика данных и больше их нет. Нам нужно работать с тем, что у нас есть».
Эта нехватка данных привела к поиску новых способов получения уникальных данных. Bloomberg сообщила, что такие компании, как OpenAI и Google, платят цифровым создателям контента за их неиспользованные видеоматериалы для обучения своих моделей.
С ростом амбиций таких компаний, как Meta и OpenAI, в стремлении быстрее развивать свои системы искусственного интеллекта, ситуация неизбежно становится сложнее. Хотя судья частично отклонил коллективный иск Кадри и Сильверман в прошлом году, представленные здесь доказательства могут усилить некоторые части их дела, по мере его продвижения в суде.
Источник: TheVerge