Главная страницаOpenAI стремится найти решение своих проблем с авторскими правами

Искусственный интеллект

OpenAI стремится найти решение своих проблем с авторскими правами

02.09.2024

Впечатляющие успехи модели GPT от OpenAI, вероятно, были достигнуты благодаря использованию большого объема текстов из Интернета, включая целые архивы крупных издательств, таких как Axel Springer, Condé Nast и Associated Press, без их разрешения. Тем не менее, OpenAI заключила соглашения с этими медиакорпорациями.

На первый взгляд, это кажется нелогичным. Почему OpenAI платит за то, что уже получила? А почему издатели, недовольные кражей их контента, согласились на сделки?

Предполагаем, что если внимательно рассмотреть эти сделки, можно заметить контуры будущего Интернета. Google все меньше перенаправляет трафик за пределы собственного пространства, что угрожает существованию остальной части сети. Это вакуум в поиске, который OpenAI может попытаться заполнить.

Начнем с очевидного: сделки дают OpenAI доступ к публикациям, что позволяет добавлять актуальный и авторитетный контент в ChatGPT. Это особенно важно, так как веб-скрейпинг ограничен временем, после которого ChatGPT не может получать свежую информацию. Ближе к реальному времени — ближе к актуальным результатам.

Это просто мелочь, смехотворно малые суммы денег.

Условия сделок остаются туманными, предполагается, что все стороны скованы соглашениями о неразглашении. Это дает им преимущество при будущих переговорах с другими игроками, такими как Google и стартап Anthropic.

OpenAI предлагает издателям суммы от 1 до 5 миллионов долларов в год. Ограничения на сделки могут доходить до 10 миллионов в год на издание.

С одной стороны, это мелочь. С другой, OpenAI продолжает пользоваться данными этих изданий без ограничений, пока суды не запретят это делать. Так за что же она платит?

Возможно, это доступ к API для облегчения и обновления скрейпинга, что позволит ChatGPT отвечать на актуальные запросы.

Но эти выплаты также могут рассматриваться как способ предотвратить судебные иски от издателей из-за уже скопированных данных, так как судебные разбирательства могут обойтись OpenAI гораздо дороже.

Если OpenAI использовала весь текстовый Интернет, это значит два момента. Во-первых, такую массу данных сложно снова собрать, что может ограничить дальнейшие успехи. Во-вторых, это вызывает недовольство многих сторон.

Множество людей подали судебные иски, один из самых важных — от The New York Times. NYT утверждает, что OpenAI нарушила авторские права, используя ее материалы для обучения LLM.

NYT утверждает, что продукт OpenAI теперь конкурирует с их источниками, пытаясь «украсть» аудиторию.

Если суд выиграет газета, OpenAI заплатит минимум 7,5 миллиарда долларов только по минимальным штрафам.

Если NYT выиграет, по закону она может получить значительные статуторные штрафы, минимальная сумма которых составит 7,5 миллиардов долларов. Недаром NYT не согласилась на сделку с OpenAI за небольшие суммы.

Сделки с издателями OpenAI являются, по сути, средствами защиты от судебных исков. Они позволяют говорить, что предыдущие использования данных также подпадают под fair use, на случай, если суды признают это неправомерным.

В сделках с издателями есть больше, чем просто предотвращение исков и управление репутацией. Эти сделки также обеспечивают OpenAI актуальной информацией. OpenAI недавно анонсировала свою новую поисковую систему SearchGPT. AI-нативный веб-поиск еще на начальной стадии, но возможность фильтровать подлинные источники надежной информации даст большое преимущество.

Поиск Google значительно ухудшился за последние годы, и AI-чат-помощник, добавленный поверх результатов поиска, не всегда помогает. Если кто-то сможет предложить качественную альтернативу, Google может оказаться в серьезной беде.

Сделки OpenAI дают издателям больше рычагов влияния и могут вынудить Google к переговорам.

Google также рассердила издателей, не только используя их данные для LLM, но и изменив свои принципы работы. Вместо направления трафика на страницы издателей Google теперь использует «сниппеты,» которые позволяют получать нужную информацию, не переходя по ссылке. Следовательно, издатели теряют просмотры и доход от рекламы.

TheVerge