Міф про продуктивність: ШІ допомагає не всім розробникам

Попри позитивні відгуки про ШІ-асистентів програмування, нове масштабне дослідження показує, що досвідчені розробники виконують завдання на 19% повільніше, використовуючи такі інструменти, як Cursor Pro і Claude. Це суперечить домінантному наративу про приріст продуктивності від застосування ШІ в розробці. Про це йдеться в матеріалі InfoWorld.

AI сповільнює досвідчених девелоперів

Дослідження, проведене Model Evaluation & Threat Research (METR), охопило 16 досвідчених open source-розробників, які виконали 246 реальних завдань у репозиторіях із середнім обсягом понад мільйон рядків коду.

«Ми провели рандомізоване контрольоване дослідження (RCT), щоб зрозуміти, як інструменти ШІ впливають на продуктивність досвідчених розробників, які працюють над власними проєктами», — йдеться в звіті METR. — «Неочікувано ми виявили, що з AI-асистентами розробники виконують завдання на 19% довше — AI робить їх повільнішими».

Розрив між очікуванням і реальністю

Найбільш вражає розрив між очікуваннями й фактичними результатами. Перед стартом експерименту учасники прогнозували, що AI зменшить час виконання на 24%. Навіть після реального сповільнення вони оцінювали приріст продуктивності у 20%.

«Коли розробники кажуть, що ШІ прискорює їхню роботу, вони можуть помилятися», — йдеться в аналізі сприйняттєвої помилки.

Таке ж спотворення спостерігається й серед експертів. Економісти прогнозували приріст продуктивності на 39%, а фахівці з машинного навчання — на 38%.

Методологія дослідження

Дослідження проводилося за класичною RCT-методологією. Учасники працювали з великими open source-проєктами (в середньому 22 тис. зірок і 1+ млн рядків коду), до яких вони роками вносили зміни.

Завдання випадковим чином призначалися з дозволом або забороною на використання AI. Основні інструменти — Cursor Pro із Claude 3.5 і 3.7 Sonnet. Розробники записували екрани — середній час виконання одного завдання становив 2 години.

AI-код має свою ціну

Ключові фактори сповільнення:
• лише 44% AI-коду було прийнято без змін
• 75% учасників перечитували кожен рядок, а 56% — суттєво його переписували
• найгірші результати — у завданнях, де розробник мав високий рівень обізнаності

Тренд, що підтверджується даними

METR-результати збігаються з даними Google DORA 2024, опитаних понад 39 000 професіоналів:
• 75% девелоперів відчувають приріст продуктивності,
• але кожне +25% у впровадженні ШІ призводить до -1,5% у швидкості розгортання і -7,2% у стабільності систем
• 39% респондентів не довіряють AI-коду

Це суперечить оптимістичним даним попередніх досліджень MIT, Princeton і Penn, які базувалися на простіших завданнях (наприклад, 55,8% приросту швидкості з GitHub Copilot). METR натомість зосереджується на реальних великих проєктах.

Один із розробників описав перевірку AI-коду так: «Це як у перші роки StackOverflow: ти копіюєш код — і все вибухає».

Попри уповільнення, 69% учасників продовжили використовувати Cursor Pro після завершення експерименту. METR зазначає, що результати не свідчать про провал ШІ, а радше про потребу точного позиціонування.

«Потрібно мислити портфельно: використовувати AI-копілотів для генерації документації, boilerplate-коду й тестів, а не там, де критична експертиза чи глибоке розуміння кодової бази. ШІ має бути контекстним інструментом, а не універсальним прискорювачем», йдеться в звіті.

Читайте на ProIT: Короткі відповіді підвищують рівень галюцинацій у чат-ботів — результати дослідження.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!