Попри позитивні відгуки про ШІ-асистентів програмування, нове масштабне дослідження показує, що досвідчені розробники виконують завдання на 19% повільніше, використовуючи такі інструменти, як Cursor Pro і Claude. Це суперечить домінантному наративу про приріст продуктивності від застосування ШІ в розробці. Про це йдеться в матеріалі InfoWorld.
AI сповільнює досвідчених девелоперів
Дослідження, проведене Model Evaluation & Threat Research (METR), охопило 16 досвідчених open source-розробників, які виконали 246 реальних завдань у репозиторіях із середнім обсягом понад мільйон рядків коду.
«Ми провели рандомізоване контрольоване дослідження (RCT), щоб зрозуміти, як інструменти ШІ впливають на продуктивність досвідчених розробників, які працюють над власними проєктами», — йдеться в звіті METR. — «Неочікувано ми виявили, що з AI-асистентами розробники виконують завдання на 19% довше — AI робить їх повільнішими».
Розрив між очікуванням і реальністю
Найбільш вражає розрив між очікуваннями й фактичними результатами. Перед стартом експерименту учасники прогнозували, що AI зменшить час виконання на 24%. Навіть після реального сповільнення вони оцінювали приріст продуктивності у 20%.
«Коли розробники кажуть, що ШІ прискорює їхню роботу, вони можуть помилятися», — йдеться в аналізі сприйняттєвої помилки.
Таке ж спотворення спостерігається й серед експертів. Економісти прогнозували приріст продуктивності на 39%, а фахівці з машинного навчання — на 38%.
Методологія дослідження
Дослідження проводилося за класичною RCT-методологією. Учасники працювали з великими open source-проєктами (в середньому 22 тис. зірок і 1+ млн рядків коду), до яких вони роками вносили зміни.
Завдання випадковим чином призначалися з дозволом або забороною на використання AI. Основні інструменти — Cursor Pro із Claude 3.5 і 3.7 Sonnet. Розробники записували екрани — середній час виконання одного завдання становив 2 години.
AI-код має свою ціну
Ключові фактори сповільнення:
• лише 44% AI-коду було прийнято без змін
• 75% учасників перечитували кожен рядок, а 56% — суттєво його переписували
• найгірші результати — у завданнях, де розробник мав високий рівень обізнаності
Тренд, що підтверджується даними
METR-результати збігаються з даними Google DORA 2024, опитаних понад 39 000 професіоналів:
• 75% девелоперів відчувають приріст продуктивності,
• але кожне +25% у впровадженні ШІ призводить до -1,5% у швидкості розгортання і -7,2% у стабільності систем
• 39% респондентів не довіряють AI-коду
Це суперечить оптимістичним даним попередніх досліджень MIT, Princeton і Penn, які базувалися на простіших завданнях (наприклад, 55,8% приросту швидкості з GitHub Copilot). METR натомість зосереджується на реальних великих проєктах.
Один із розробників описав перевірку AI-коду так: «Це як у перші роки StackOverflow: ти копіюєш код — і все вибухає».
Попри уповільнення, 69% учасників продовжили використовувати Cursor Pro після завершення експерименту. METR зазначає, що результати не свідчать про провал ШІ, а радше про потребу точного позиціонування.
«Потрібно мислити портфельно: використовувати AI-копілотів для генерації документації, boilerplate-коду й тестів, а не там, де критична експертиза чи глибоке розуміння кодової бази. ШІ має бути контекстним інструментом, а не універсальним прискорювачем», йдеться в звіті.
Читайте на ProIT: Короткі відповіді підвищують рівень галюцинацій у чат-ботів — результати дослідження.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!