Cloudflare заманивает ботов для веб-скрапинга в «Лабиринт ИИ»

23.03.2025

Cloudflare, одна из крупнейших компаний по обеспечению интернет-инфраструктуры в мире, представила AI Labyrinth — новый инструмент для борьбы с ботами, которые сканируют сайты без разрешения для получения данных для обучения ИИ. В блоге компании сообщается, что при обнаружении «неподобающего поведения ботов» бесплатный инструмент, требующий активации, направляет сканеры по цепочке ссылок на страницы, созданные ИИ, замедляя их работу, сбивая с толку и бесполезно расходуя ресурсы тех, кто действует недобросовестно.

Долгое время веб-сайты использовали метод robots.txt — текстовый файл, который разрешает или запрещает доступ сканерам, однако компании, занимающиеся искусственным интеллектом, даже такие известные, как Anthropic и Perplexity AI, обвиняются в игнорировании этого метода. Cloudflare отмечает, что ежедневно обрабатывает свыше 50 миллиардов запросов от веб-сканеров, и хотя у компании есть инструменты для их обнаружения и блокировки, это часто приводит к тому, что злоумышленники меняют тактику в бесконечной гонке вооружений.

Cloudflare утверждает, что вместо блокировки ботов AI Labyrinth борется с ними, заставляя обрабатывать данные, не относящиеся к текущему сайту. Этот инструмент работает как «новое поколение ловушек», привлекая ИИ-сканеры к глубокому заходу в фальшивые страницы, в то время как обычные пользователи не столкнутся с этими страницами. Это облегчает процесс идентификации злонамеренных ботов для списка Cloudflare и позволяет выявлять новые шаблоны и сигнатуры ботов, которые раньше бы остались незамеченными. Согласно сообщению, эти ссылки не должны быть видны человеку.

Чтобы больше узнать о работе AI Labyrinth, можно ознакомиться с информацией на блоге Cloudflare, но вот некоторые подробности из записи:

Было установлено, что создание разнообразных тем сначала, а затем генерация контента для каждой из них, приводит к более разнообразным и убедительным результатам. Для нас важно не создавать недостоверный контент, который может способствовать распространению дезинформации в Интернете, поэтому генерируемый нами контент является реальным и связан с научными фактами, но не имеет отношения или уникальности для сканируемого сайта.

Администраторы сайтов могут подключить AI Labyrinth через раздел управления ботами на панели управления Cloudflare, активировав настройку. Компания утверждает, что это «только первая итерация использования генеративного ИИ для противодействия ботам». В планах создания «целых сетей связанных URL», которые боты будут не в состоянии распознать как фальшивку. Как отмечает Ars Technica, AI Labyrinth похож на Nepenthes, инструмент, предназначенный для маргинализации сканеров на «месяцы» в потоке бессмысленных данных, созданных ИИ.

Источник: TheVerge