Компанія OpenAI, розробник чат-бота з ШІ ChatGPT, випустила новий продукт – пошукового робота GPTBot, призначеного для сканування вебсторінок.
Як повідомляється у блозі OpenAI, GPTBot збиратиме базу даних в Інтернеті для навчання й удосконалення мовних моделей, як-от GPT-4 та GPT-5.
Дозвіл GPTBot отримати доступ до вашого сайту може допомогти моделям ШІ стати більш точними та покращити їхні загальні можливості й безпеку, стверджують в OpenAI.
«Вебсторінки, скановані за допомогою агента користувача GPTBot, потенційно можуть бути використані для удосконалення майбутніх моделей і відфільтровані з видаленням джерел, які вимагають платного доступу, збирають особисту інформацію або містять текст, який порушує нашу політику», – повідомили в компанії.
В OpenAI заявили, що GPTBot збиратиме загальнодоступні дані зі всесвітньої павутини, але відфільтровуватиме джерела, до яких потрібен платний доступ, а також ті, які збирають особисті дані чи містять інформацію, що суперечить політиці конфіденційності компанії.
Також в OpenAI надали інструкції для налаштування і блокування GPTBot.
GPTBot можна ідентифікувати за таким агентом користувача та рядком:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Щоб заборонити GPTBot доступ до вашого сайту, ви можете додати GPTBot до robots.txt свого сайту:
User-agent: GPTBot
Disallow: /
Щоб надати GPTBot доступ лише до частин вашого сайту, ви можете додати маркер GPTBot до robots.txt вашого сайту таким чином:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Раніше ми повідомляли, що OpenAI формує команду для контролю над суперінтелектуальним штучним інтелектом.