Впечатляющие успехи модели GPT от OpenAI, вероятно, были достигнуты благодаря использованию большого объема текстов из Интернета, включая целые архивы крупных издательств, таких как Axel Springer, Condé Nast и Associated Press, без их разрешения. Тем не менее, OpenAI заключила соглашения с этими медиакорпорациями.
На первый взгляд, это кажется нелогичным. Почему OpenAI платит за то, что уже получила? А почему издатели, недовольные кражей их контента, согласились на сделки?
Предполагаем, что если внимательно рассмотреть эти сделки, можно заметить контуры будущего Интернета. Google все меньше перенаправляет трафик за пределы собственного пространства, что угрожает существованию остальной части сети. Это вакуум в поиске, который OpenAI может попытаться заполнить.
Начнем с очевидного: сделки дают OpenAI доступ к публикациям, что позволяет добавлять актуальный и авторитетный контент в ChatGPT. Это особенно важно, так как веб-скрейпинг ограничен временем, после которого ChatGPT не может получать свежую информацию. Ближе к реальному времени — ближе к актуальным результатам.
Это просто мелочь, смехотворно малые суммы денег.
Условия сделок остаются туманными, предполагается, что все стороны скованы соглашениями о неразглашении. Это дает им преимущество при будущих переговорах с другими игроками, такими как Google и стартап Anthropic.
OpenAI предлагает издателям суммы от 1 до 5 миллионов долларов в год. Ограничения на сделки могут доходить до 10 миллионов в год на издание.
С одной стороны, это мелочь. С другой, OpenAI продолжает пользоваться данными этих изданий без ограничений, пока суды не запретят это делать. Так за что же она платит?
Возможно, это доступ к API для облегчения и обновления скрейпинга, что позволит ChatGPT отвечать на актуальные запросы.
Но эти выплаты также могут рассматриваться как способ предотвратить судебные иски от издателей из-за уже скопированных данных, так как судебные разбирательства могут обойтись OpenAI гораздо дороже.
Если OpenAI использовала весь текстовый Интернет, это значит два момента. Во-первых, такую массу данных сложно снова собрать, что может ограничить дальнейшие успехи. Во-вторых, это вызывает недовольство многих сторон.