OpenAI презентувала GPT-5-агента Aardvark для DevSecOps-команд

OpenAI запустила Aardvark — автономного агента безпеки на базі GPT-5, який працює як дослідник-розробник і виконує повний цикл перевірки коду: від пошуку вразливостей до автоматичного створення патчів. Наразі система доступна у приватній бета-версії.

Як працює Aardvark

Aardvark імітує роботу експерта з кібербезпеки, виконуючи безперервний аналіз репозиторіїв, моделювання загроз і генерацію виправлень. На відміну від традиційних інструментів типу fuzz-тестування чи SCA, агент використовує LLM-міркування та інтегровані інструменти, щоб читати код, проводити семантичний аналіз, створювати тестові кейси та перевіряти їх у sandbox-середовищі.

Його робота побудована у вигляді багатоступеневого конвеєра:

1. Threat Modeling — створює модель загроз, аналізуючи архітектуру та цілі проєкту.

2. Commit-Level Scanning — перевіряє зміни коду у реальному часі та в історії репозиторію.

3. Validation Sandbox — тестує знайдені вразливості в ізольованому середовищі, мінімізуючи false positive.

4. Automated Patching — генерує і пропонує патчі через інтеграцію з OpenAI Codex і GitHub pull-requests.

Aardvark сумісний із GitHub, Codex і CI/CD-конвеєрами, забезпечує людино-зрозумілі анотації й повну відтворюваність аналізу.

Ефективність і тестування

За даними OpenAI, Aardvark вже кілька місяців працює на внутрішніх кодових базах і у вибраних партнерів.
У тестах на «золотих» репозиторіях — із вбудованими відомими вразливостями — агент виявив 92% усіх проблем, показавши високу точність і низький рівень хибних спрацювань.

Під час тестів у відкритих проєктах Aardvark знайшов 10 критичних вразливостей, яким присвоєно CVE-ідентифікатори. Усі звіти подані відповідно до оновленої політики відповідального розкриття OpenAI, орієнтованої на співпрацю з розробниками.

Окрім класичних помилок безпеки, Aardvark виявляє логічні баги, неповні виправлення та ризики конфіденційності, що свідчить про потенціал ширшого застосування в розробці.

Інтеграція та умови бета-версії

Aardvark наразі доступний лише для організацій із GitHub Cloud. Для участі у бета-тестуванні потрібно:

• інтегрувати агент із GitHub Cloud;

• надавати фідбек команді OpenAI;

• погодитися з умовами конфіденційності.

Код, який аналізує Aardvark, не використовують для навчання моделей. OpenAI також пропонує безкоштовне сканування вразливостей для вибраних некомерційних open-source-проєктів.

Запуск Aardvark — частина руху OpenAI у напрямі агентних систем із доменною спеціалізацією. Після появи ChatGPT Agent (для роботи з файлами та браузером) і Codex-агента (для розробки коду) компанія тепер фокусується на defender-first AI, який інтегрується безпосередньо в робочі процеси розробників.

У 2024 році було зафіксовано понад 40 тисяч CVE, а за внутрішніми оцінками OpenAI, 1,2% усіх комітів коду містять нові баги. Тому Aardvark відповідає на запит ринку щодо превентивних інструментів безпеки, які працюють у режимі 24/7.

На відміну від gpt-oss-safeguard який застосовує політики безпеки під час інференсу, Aardvark фокусується на живих кодових базах, постійно оновлюючи свої моделі ризику. Разом вони формують нову архітектуру адаптивних AI-систем для модерації контенту й кіберзахисту.

Значення для ринку

Aardvark означає перехід від статичних сканерів до автономних агентів-дослідників, що діють у безперервному циклі DevSecOps. Його автоматизоване виявлення, перевірка й патчинг можуть зменшити навантаження на команди безпеки та прискорити реагування на інциденти.

Для підприємств та AI-інженерів Aardvark може стати мультиплікатором ефективності, допомагаючи виявляти логічні помилки або вразливості в CI/CD-процесах без уповільнення релізів. Для команд, що підтримують критичні дата-пайплайни, агент пропонує додатковий рівень стійкості й раннє виявлення ризиків.

Раніше ми повідомляли, що компанія Sonar презентувала новий сервіс, який покликаний покращити якість коду, створеного великими мовними моделями (LLM), зменшуючи кількість вразливостей і помилок, що виникають під час генерації.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!