OpenAI оновлює API з можливістю дистиляції моделей і кешування підказок

У межах зусиль OpenAI наздогнати своїх конкурентів творець ChatGPT випустив кілька оновлень для свого API, щоб полегшити розробку застосунків на основі генеративного штучного інтелекту. Ці оновлення включають можливості дистиляції моделей і кешування підказок, які вже пропонуються конкурентами, повідомляє Info World.

Дистиляція моделей для зменшення витрат на генеративні ШІ-застосунки

Дистиляція моделей — це техніка, яка використовується в навчанні великих мовних моделей. Вона застосовується для передачі меншій моделі знань або навичок, отриманих від більшої моделі.

Дистиляція моделей є популярною серед розробників, оскільки вона може зберегти продуктивність моделі, яка лежить в основі застосунку, зменшуючи при цьому обчислювальні вимоги і, відповідно, витрати.

Основна ідея полягає в тому, що менші моделі, які використовують менше обчислювальних ресурсів, можуть працювати на рівні більших моделей у певних сферах знань або компетенцій.

Кілька експертів стверджують, що дистиляція моделей може ефективно застосовуватися в реальному часі для обробки природної мови або в таких галузях, як фінанси та охорона здоров’я, де потрібна спеціалізація моделі.

Можливість дистиляції моделей в API OpenAI включає три компоненти: Stored Completions, Evals і Fine-tuning. Усі вони доступні через API.

Щоб виконати дистиляцію моделі за допомогою OpenAI API, розробникам потрібно створити оцінку (evaluation) або вручну, або використовуючи компонент Evals, який наразі перебуває у бета-версії, для вимірювання продуктивності меншої моделі.

Ідея полягає в тому, щоб постійно відстежувати модель після її дистиляції, щоб переконатися, що вона працює так, як потрібно, пояснили в OpenAI.

Після створення оцінки розробники можуть використовувати Stored Completions, щоб створити набір даних із результатів роботи більшої моделі за заданою темою, на якій потрібно навчати меншу модель.

Stored Completions — це нова безкоштовна функція в API, яка дозволяє автоматично фіксувати та зберігати пари введення-виведення, згенеровані будь-якою з мовних моделей, наданих компанією, таких як GPT-4o або o1-preview.

Після створення набору даних за допомогою Stored Completions його можна переглядати, фільтрувати та використовувати для налаштування меншої моделі або як оцінювальний набір даних. Після цього розробники можуть провести оцінку меншої моделі, щоб побачити, чи працює вона оптимально або наближається до продуктивності більшої моделі.

Конкуренти, такі як Google, Anthropic і AWS, вже пропонують можливості дистиляції моделей. Google раніше надавала можливість створювати дистильовані моделі для PaLM і зараз пропонує можливість використовувати Gemini для дистиляції менших моделей. AWS надає доступ до Llama 3.1-405B для генерації синтетичних даних і дистиляції для налаштування менших моделей.

Можливість дистиляції моделей у API OpenAI доступна загалом. Будь-яка з більших моделей компанії може бути використана для дистиляції менших.

Кешування підказок для зменшення затримок у застосунках на основі генеративного AI

Разом із можливістю дистиляції OpenAI також зробила доступною можливість кешування підказок для останніх версій GPT-4o, GPT-4o mini, o1-preview і o1-mini, а також для налаштованих версій цих моделей.

Кешування підказок — техніка, яка використовується у процесі розробки застосунків на основі генеративного штучного інтелекту. Це дозволяє моделі швидше розуміти природну мову, зберігаючи та повторно використовуючи контексти, які часто використовуються під час викликів API.

«Багато розробників використовують один і той самий контекст повторно протягом кількох викликів API при створенні AI-застосунів. Наприклад, коли вносять зміни в базу коду або ведуть довгі багатокрокові розмови з чат-ботом. Ідея полягає у зменшенні використання токенів при надсиланні запиту до мовної моделі», — пояснили в OpenAI.

Це означає, що коли надходить новий запит, мовна модель перевіряє, чи є якісь частини запиту кешованими. Якщо вони є, використовується кешована версія, інакше виконується повний запит.

Нова можливість кешування підказок від OpenAI працює за тим самим принципом, що може допомогти розробникам заощадити час і кошти.

«Повторно використовуючи нещодавно бачені токени введення, розробники можуть отримати знижку 50% і швидший час обробки підказок», — заявили в компанії.

Крім того, OpenAI представила публічну бета-версію Realtime API, яка дає змогу розробникам створювати багатомодальні застосунки з низькою затримкою, що включають текст і мовлення.

Нещодавно ми повідомляли, що OpenAI залучила $157 мільярдів: серед інвесторів — Microsoft, NVIDIA, SoftBank.

Читайте також на нашому сайті про 7 антишаблонів спостереження API, яких слід уникати.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!