Meta презентувала Confucius Code Agent для роботи з великими кодовими базами

Meta спільно з дослідниками Гарвардського університету презентували Confucius Code Agent (CCA) — експериментального AI-агента для роботи з великими кодовими базами. Система досягла 54,3% показника розв’язання задач у бенчмарку SWE-Bench-Pro, перевершивши більшість дослідницьких фреймворків і зрівнявшись із комерційними рішеннями провідних AI-компаній.

Розробники підкреслили, що основна інновація полягає не лише в результатах тестування, а в архітектурі агента. Confucius Code Agent побудований на новій платформі Confucius SDK, яка орієнтована на використання AI-агентів у production-середовищах, а не лише в дослідницьких демо.

Архітектура важливіша за модель

Дослідження показує, що ефективність AI-асистентів для програмування значною мірою залежить не від самої мовної моделі, а від того, як навколо неї побудований агент. Автори називають це agent scaffolding — інфраструктурою, що визначає, як агент працює з кодом, контекстом та інструментами.

Один із показових результатів — порівняння роботи тієї самої моделі Claude 4 Sonnet у різних агентних фреймворках. У конфігурації Confucius Code Agent вона показала 45,5%, тоді як базовий SWE-Agent — 42,7%. Різницю забезпечила саме архітектура агента, а не модель.

«Confucius Code Agent показує, що обмеженням AI у розробці ПЗ більше не є модель. Різниця в результатах виникає через те, як агенти структуровані для роботи з кодом, контекстом і відокремлення машинних сигналів від інформації для людей», — зазначив Мітч Ешлі, віцепрезидент і керівник практики Software Lifecycle Engineering у Futurum.

За його словами, для команд розробки це змінює підхід до вибору інструментів: вибір моделі стає базовою вимогою, а конкурентна перевага переходить до архітектури агентів, які підтримують довготривалу роботу, постійну памʼять і контрольоване використання інструментів.

Три рівні дизайну агента

Confucius SDK розділяє дизайн системи на три незалежні складові:

• Agent Experience (AX) — те, як інформація подається самій AI-моделі. Система стискає надлишкові логи в структуровані резюме, зберігаючи важливі рішення та помилки.

• User Experience (UX) — взаємодія людини з агентом. Користувачі бачать детальні трасування виконання, але ці дані не передаються безпосередньо моделі.

• Developer Experience (DX) — інструменти для побудови, тестування й оптимізації агентів, включно з модульними інтерфейсами для памʼяті, промптів і тулінгу.

Такий поділ, за словами авторів, усуває типову проблему, коли людиночитні логи засмічують контекст моделі й погіршують якість міркувань.

Основні механізми

Confucius Code Agent реалізує чотири механізми, необхідні для роботи з великими кодовими базами:

• Ієрархічна робоча памʼять — окремий Architect-агент стискає довгі сесії в структуровані плани, запобігаючи переповненню контексту.

• Постійні нотатки — агент автоматично формує Markdown-записи з рішень і помилок, створюючи довготривалу базу знань.

• Модульна система розширень — усі інструменти викликаються через окремі компоненти, що спрощує тестування та повторне використання.

• Мета-агент для оптимізації — автоматизує цикл build–test–improve, генеруючи конфігурації агентів і покращуючи їх за результатами тестів.

Під час повторного запуску 151 задачі використання постійних нотаток дало можливість зменшити середню кількість токенів зі 104 тисяч до 93 тисяч і підвищити показник успішності з 53% до 54,4%.

Результати тестування

На SWE-Bench-Pro Confucius Code Agent із Claude 4.5 Opus досяг 54,3%, перевищивши 52,0%, заявлені Anthropic для власної системи. З Claude 4.5 Sonnet результат становив 52,7%, що суттєво вище за базовий Live-SWE-Agent із 45,8%.

Окремі тести показали, що видалення керування контекстом знижує результативність із 51,6% до 44,0%, що підтверджує критичну роль архітектурних рішень.

Що це означає для команд розробки

Дослідження Meta та Гарвардського університету демонструє: production-ready AI-агенти оцінюватимуть не за чистими бенчмарками моделей, а за здатністю стабільно працювати з реальними кодовими базами. Архітектура памʼяті, контроль контексту та керування інструментами стають основними факторами.

Для команд, які розглядають впровадження AI-асистентів у розробку ПЗ, Confucius SDK є прикладом того, як потрібно обгортати мовні моделі, щоб вони працювали не як демо, а як інженерні інструменти.

Читайте також на ProIT, що Meta купує Manus і робить ставку на агентний ШІ.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!