Cloudflare за замовчуванням блокуватиме ШІ-ботів для збору контенту

З липня Cloudflare починає автоматично блокувати скрейперів штучного інтелекту (AI) на нових доменах, які підключаються до її інфраструктури. Цей крок може суттєво вплинути на здатність розробників ШІ-моделей збирати дані для навчання, повідомляє CNBC.

Починаючи з цього тижня, кожен новий сайт, який реєструється в Cloudflare, отримає запит — дозволити або заблокувати ШІ-скрейпери. За замовчуванням буде обрано блокування.

Cloudflare є однією з найбільших у світі CDN-платформ (content delivery network), яка забезпечує прискорену доставку контенту до кінцевих користувачів. За оцінками компанії, через її мережу проходить щонайменше 16% усього світового інтернет-трафіку (дані за 2023 рік).

«AI-боти без обмежень збирали контент. Ми прагнемо повернути контроль до рук авторів і водночас зберегти інноваційний потенціал AI-компаній», — заявив співзасновник і CEO Cloudflare Меттью Прінс.

«Це про захист майбутнього вільного, відкритого Інтернету через нову модель взаємодії, яка працює для всіх», — додав він.

У чому проблема з ШІ-ботами?

AI-боти — це автоматизовані програми, які збирають великі обсяги текстів, зображень та інших даних із вебсайтів для навчання мовних моделей, таких як ті, що розробляють OpenAI або Google.

За словами фахівців Cloudflare, раніше пошукові системи спрямовували трафік на першоджерела, але зараз ШІ-моделі відображають відповіді безпосередньо, не приводячи користувача на сайт. Це зменшує відвідуваність і прибутки видавців від реклами.

Нововведення продовжує курс, який Cloudflare розпочала у вересні 2024 року, запропонувавши видавцям інструмент для блокування AI-ботів одним кліком. Тепер блокування буде активоване за замовчуванням.

Реакція OpenAI та потенційні наслідки

В OpenAI відмовилися брати участь у попередньому обговоренні цієї ініціативи. Компанія заявила, що Cloudflare фактично додає посередника між нею і власниками сайтів. Водночас OpenAI наголосила, що її скрейпери поважають налаштування файлу robots.txt, що забороняє автоматичне збирання даних.

На думку адвоката з компанії Cripps Меттью Голмана, ШІ-скрейпери часто працюють агресивно та вибірково, перевантажуючи ресурси сайтів, і псують користувацький досвід.

Він додав, що, якщо нова політика Cloudflare буде ефективною, це може обмежити можливості AI-моделей для збирання даних у короткостроковій перспективі та поставити під сумнів сталість їхнього розвитку у довгостроковій.

Читайте також на ProIT, як вебскрейпінг допомагає збирати дані.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!