Новая политика Cloudflare призывает компании, занимающиеся искусственным интеллектом, платить издателям за контент и отделять поиск от обучения Crawlers

Cloudflare недавно объявила, что внесет важные изменения в стандартную конфигурацию веб-сайтов, использующих ее услуги, установив новый «крайний срок» для всей индустрии искусственного интеллекта: требуя от компаний, занимающихся ИИ, четко отличать веб-сканеры, используемые для традиционного поиска, от сканеров, используемых для агентов ИИ и обучения моделей, к 15 сентября этого года, в противном случае эти сканеры «смешанного использования» будут по умолчанию заблокированы на большом количестве рекламных страниц.

Согласно подробностям, объявленным Cloudflare, любой сканер данных, который одновременно используется для поиска, вызова агента AI и обучения модели, будет заблокирован от сканирования по умолчанию, если он обращается к веб-странице, на которой размещена реклама, если только владелец веб-сайта активно не изменит соответствующие настройки. Эти новые настройки по умолчанию будут применяться к новым клиентам Cloudflare, новым сайтам, созданным существующими клиентами, и всем существующим бесплатным сайтам пользователей. Этот шаг напрямую повлияет на то, как поставщики моделей ИИ получают веб-контент для обучения и создания услуг, а также изменит структуру предоставления данных для служб агентов ИИ.

Cloudflare отметила, что большинство владельцев веб-сайтов надеются, что их контент можно будет обнаружить с помощью традиционных поисковых систем, а также рады, что их цитируют службы искусственного интеллекта при определенных условиях, но они не хотят, чтобы их права интеллектуальной собственности были незаконно присвоены бесплатно и в больших масштабах без разрешения. Cloudflare назвала в своем описании «крупнейшую поисковую систему в мире» (очевидно, указывая на Google), заявив, что у нее «примерно вдвое больше доступной информации» по сравнению с другими компаниями, занимающимися искусственным интеллектом. Причина в том, что поисковый гигант усложняет сайтам поддержание видимости в результатах поиска, полностью избегая при этом использования ИИ.

Google всегда опровергал подобные общие обвинения, подчеркивая, что он предоставляет сайтам на выбор робота под названием «Google Extended», который используется для явного отказа в использовании контента веб-сайта для обучения ИИ, а также продуктов и услуг ИИ, таких как Gemini Apps и Vertex API, не влияя при этом на включение веб-сайта в поиск Google. Однако, хотя основной сканер Googlebot Googlebot индексирует страницы для поиска, он также обеспечивает поддержку данных для встроенных в поиск функций искусственного интеллекта, таких как обзоры AI и режим AI.

Мэтью Принс, соучредитель и генеральный директор Cloudflare, заявил в своем заявлении, что по мере изменения структуры интернет-трафика «подавляющее большинство интернет-трафика сегодня больше не доступно людям». Ранее отрасль ожидала, что переломный момент, когда «трафик роботов превысит трафик людей», наступит не раньше следующего года. Он подчеркнул: «В этом случае мы должны идти дальше и двигаться быстрее, чтобы по-настоящему сформировать устойчивую экосистему».

Принс сказал, что новые инструменты и партнерские отношения Cloudflare предоставят владельцам веб-сайтов большую видимость и бизнес-возможности в эпоху искусственного интеллекта, а также принесут пользу сканерам искусственного интеллекта благодаря четкому использованию и прозрачным намерениям. Он надеется, что, изменив политику по умолчанию, он сможет заставить «сканеры смешанного назначения» четко отделять традиционный поиск от вызовов агентов и целей обучения. На внешнем бизнес-уровне Cloudflare предоставляет различные продукты, помогающие пользователям создавать собственные системы искусственного интеллекта. С другой стороны, в последние годы компания также запустила серию инструментов «улучшения контроля» для издателей и сторон, занимающихся контентом.

Еще в 2024 году Cloudflare запустила инструмент, специально предназначенный для борьбы со сканерами AI, а затем в 2025 году запустила рынок под названием «Pay Per Crawl», позволяющий веб-сайтам взимать со сканеров AI плату за сканирование. Последние новости показывают, что эта модель в дальнейшем развивается в «плату за использование», то есть она больше не взимает плату только на основе «поведения сканирования», но взимает плату с компаний, занимающихся искусственным интеллектом, на основе фактического «создания ценности» контента в системе искусственного интеллекта.

Cloudflare отметила, что эта модель «платы за использование» не только предоставляет издателям новые каналы дохода, но также помогает экономить их пропускную способность и вычислительные ресурсы, поскольку ее внутренние данные показывают, что более 50% трафика сканирования сканера AI тратится на повторное сканирование страниц, которые не были обновлены. Благодаря новым механизмам выставления счетов и контроля издатели могут отдавать приоритет ограниченным ресурсам по действительно ценным запросам, одновременно налагая финансовые ограничения на «неэффективное сканирование дубликатов».

Что касается конкретного сотрудничества по реализации, Cloudflare в настоящее время запустила пилотные проекты с двумя партнерами, Ceramic.ai и You.com. Когда издатели решат присоединиться к программе, они получат соответствующую компенсацию, если их контент появится в результатах поиска Ceramic AI или будет доступен You.com как часть «платного премиум-контента». Cloudflare заявила, что другие компании, занимающиеся искусственным интеллектом, также могут настраивать и расширять эту модель оплаты в соответствии со своими собственными формами продуктов.

На фоне растущего внимания регулирующих органов и общественности к вопросам сканирования ИИ и авторских прав, корректировка политики Cloudflare и обновление бизнес-модели, очевидно, направлены на то, чтобы получить больше прав и возможностей для получения прибыли для издателей, а также оказать новое давление на прозрачность и соблюдение требований на компании, занимающиеся ИИ. Для индустрии искусственного интеллекта, продолжающей полагаться на огромный веб-контент для обучения и эксплуатации различных интеллектуальных агентов, неизбежным ключевым вопросом в будущем станет то, как найти баланс между техническим удобством и правами и интересами владельцев контента.