OpenAI запустила вебкраулер GPTBot. Як його налаштувати або заблокувати

Компанія OpenAI, розробник чат-бота з ШІ ChatGPT, випустила новий продукт – пошукового робота GPTBot, призначеного для сканування вебсторінок.

Як повідомляється у блозі OpenAI, GPTBot збиратиме базу даних в Інтернеті для навчання й удосконалення мовних моделей, як-от GPT-4 та GPT-5.

Дозвіл GPTBot отримати доступ до вашого сайту може допомогти моделям ШІ стати більш точними та покращити їхні загальні можливості й безпеку, стверджують в OpenAI.

«Вебсторінки, скановані за допомогою агента користувача GPTBot, потенційно можуть бути використані для удосконалення майбутніх моделей і відфільтровані з видаленням джерел, які вимагають платного доступу, збирають особисту інформацію або містять текст, який порушує нашу політику», – повідомили в компанії.

В OpenAI заявили, що GPTBot збиратиме загальнодоступні дані зі всесвітньої павутини, але відфільтровуватиме джерела, до яких потрібен платний доступ, а також ті, які збирають особисті дані чи містять інформацію, що суперечить політиці конфіденційності компанії.

Також в OpenAI надали інструкції для налаштування і блокування GPTBot.

GPTBot можна ідентифікувати за таким агентом користувача та рядком:

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Щоб заборонити GPTBot доступ до вашого сайту, ви можете додати GPTBot до robots.txt свого сайту:

User-agent: GPTBot

Disallow: /

Щоб надати GPTBot доступ лише до частин вашого сайту, ви можете додати маркер GPTBot до robots.txt вашого сайту таким чином:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Раніше ми повідомляли, що OpenAI формує команду для контролю над суперінтелектуальним штучним інтелектом.