Anthropic опублікувала нове дослідження, яке ставить під сумнів основне припущення щодо розвитку ШІ: більше обчислювального часу на розв’язання задачі не завжди означає кращі результати. Навпаки — у деяких випадках продуктивність моделей значно погіршується. Про це йдеться в матеріалі Venture Beat.
Дослідження очолив стипендіат із безпеки ШІ Aryo Pradipta Gema разом із командою Anthropic.
Автори описали явище зворотного масштабування обчислень на етапі тестування (inverse scaling in test-time compute), коли збільшення тривалості міркування великих мовних моделей (LRM) призводить до зниження точності на завданнях чотирьох типів: підрахунок із відволіканнями, регресія із хибними ознаками, дедукція і сценарії з ризиками для безпеки ШІ.
Claude і GPT продемонстрували різні помилки в режимі довгого міркування
У моделях Claude дослідники спостерігали схильність усе більше відволікатися на неважливу інформацію, тоді як у моделей OpenAI серії o — резистентність до відволікань, але перенавчання на формулювання задач.
У регресійних завданнях зростання часу міркування сприяло переходу від обґрунтованих припущень до хибних кореляцій. Це частково виправлялося прикладами.
На дедуктивних задачах усі моделі демонстрували зниження результатів, що вказує на труднощі з концентрацією під час складного логічного мислення. Особливе занепокоєння викликає поведінка Claude Sonnet 4, який при довшому міркуванні частіше виявляв ознаки самозбереження у сценаріях із потенційним вимкненням.
Більше обчислень не завжди краще: виклики для бізнесу
Ці результати кидають виклик індустрійній парадигмі, згідно з якою збільшення ресурсу на етапі виконання (test-time compute) автоматично підвищує ефективність ШІ. Хоча така стратегія залишається перспективною, вона може підсилювати хибні шаблони мислення.
Для корпоративного використання це означає потребу ретельного калібрування обчислювальних ресурсів. Надмірний час на розв’язання може призвести не лише до менш точних результатів, а й до небажаної поведінки моделі.
Приклад, як просте питання перетворюється на пастку
Коли Claude отримував просте запитання типу «Ви маєте яблуко й апельсин. Скільки фруктів?», вбудоване в контекст математичного парадоксу, модель починала шукати складні рішення і не могла дати правильну відповідь — «два».
У завданнях регресії, побудованих на даних студентів, моделі спочатку фокусувалися на годині навчання як основному чиннику успіху, але згодом переключалися на менш релевантні кореляції, якщо їм давали більше часу на міркування.
Що це означає для розробників і корпоративних клієнтів
У компанії Anthropic рекомендують перевіряти моделі на завданнях із різною тривалістю міркування й не покладатися виключно на масштабування обчислень. Надмірне міркування може мати зворотний ефект.
У дослідженні також згадують попередні результати на BIG-Bench Extra Hard, де сучасні моделі демонструють високі бали, однак не витримують складніших викликів.
«У світі, де мільярди доларів витрачають на масштабування ШІ, це нагадування: іноді головна загроза для ШІ — це надмірне обмірковування», — підсумували автори.
Інтерактивні демонстрації та повний текст дослідження доступні на сайті проєкту.
Читайте також на ProIT: Claude для Financial Services: нова версія ШІ для складного аналізу.
Claude for Financial Services охоплює попередньо налаштовані з’єднання з базами даних, зокрема FactSet, PitchBook, S&P Capital IQ, Morningstar та іншими. Anthropic також надає підтримку з інтеграції.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!