OpenAI навчив o1 і o3 «думати» про свою політику безпеки

OpenAI анонсувала нове сімейство моделей міркувань штучного інтелекту, o3, які, як стверджує стартап, є більш досконалими, ніж o1 чи будь-що інше, що він випускав до цього.

Як повідомляє TechCrunch, схоже, що ці покращення відбулися завдяки масштабуванню обчислень під час тестування, але OpenAI каже, що використав нову парадигму безпеки для навчання своїх моделей o-серії.

У п’ятницю OpenAI оприлюднила нове дослідження «обмірковуваного узгодження», в якому окреслено останній спосіб компанії забезпечити відповідність моделей міркування ШІ цінностям їхніх розробників. Стартап використовував цей метод, щоб змусити o1 і o3 «думати» про політику безпеки OpenAI під час висновку (фази після того, як користувач натискає клавішу Enter у своєму запиті).

Згідно з дослідженням OpenAI, цей метод покращив загальну відповідність o1 принципам безпеки компанії. Це означає, що доцільне вирівнювання зменшило швидкість, із якою o1 відповідав на «небезпечні» запитання (принаймні на ті, які OpenAI вважав небезпечними), одночасно покращуючи його здатність відповідати на доброякісні запитання.

Зі зростанням популярності та потужності моделей штучного інтелекту дослідження безпеки ШІ здаються все більш актуальними. Але водночас це більш суперечливо. Девід Сакс, Ілон Маск і Марк Андріссен кажуть, що деякі заходи безпеки штучного інтелекту насправді є «цензурою», підкреслюючи суб’єктивний характер цих рішень.

У той час як о-серія моделей OpenAI була натхненна тим, як люди думають, перш ніж відповісти на складні запитання, ШІ насправді не думає так, як ви чи я. o1 і o3 пропонують складні відповіді на завдання із написання та кодування, але ці моделі справді чудово передбачають наступну лексему (приблизно півслова) у реченні.

Ось як працюють o1 і o3, якщо говорити простими словами: після того, як користувач натискає клавішу Enter у підказці ChatGPT, моделям міркувань OpenAI потрібно від 5 секунд до кількох хвилин, щоб повторно запропонувати собі додаткові запитання. Модель розбиває проблему на менші кроки. Після цього процесу, який OpenAI називає «ланцюжком думок», моделі o-серії дають відповідь на основі отриманої ними інформації.

Ключова інновація в обмірковуваному узгодженні полягає в тому, що OpenAI навчив o1 і o3 повторно запитувати себе текст із політики безпеки OpenAI під час фази ланцюжка думок.

Дослідники кажуть, що це зробило o1 і o3 набагато більш узгодженими з політикою OpenAI, але фахівці зіткнулися із деякими труднощами в реалізації без зменшення затримки.

Згадавши правильну специфікацію безпеки, моделі o-серії потім внутрішньо «роздумують» над тим, як безпечно відповісти на запитання, подібно до того, як o1 і o3 внутрішньо розбивають регулярні підказки на менші кроки.

Читайте також на ProIT: OpenAI додає пошук у реальному часі до безкоштовного плану ChatGPT.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!