Google Cloud оновила свою керовану обчислювальну службу Cloud Run новою функцією. Вона дозволить підприємствам запускати в режимі реального часу свої застосунки штучного інтелекту, які обслуговують великі мовні моделі (LLM) на графічних процесорах NVIDIA L4. Про це повідомляє NetworkWorld.
Вказана функція має важливе значення для розробників, оскільки підтримка графічних процесорів NVIDIA розширить можливості Cloud Run за рахунок прискорення часу обчислення, необхідного для висновків, а також допоможе заощадити кошти.
Служба Cloud Run, яку вперше було представлено у квітні 2019 року, дозволяє підприємствам запускати контейнери без збереження стану, які можна викликати через запити HTTP.
Також вона доступна в Google Kubernetes Engine (GKE), що дає змогу розробникам запускати контейнерні робочі навантаження HTTP на керованому кластері Kubernetes.
Сервіс був популярний серед розробників, оскільки дозволяв їм запускати обчислення або робочі навантаження на вимогу, на відміну від типового хмарного екземпляра, який працює певний час і завжди доступний.
Однак зростаючий попит на можливість запускати робочі навантаження, пов’язані зі штучним інтелектом, у тому числі через безсерверний обчислювальний сервіс, змусив Google додати підтримку GPU у Cloud Run.
Поєднання підтримки графічного процесора та безсерверного характеру служби, на думку експертів, має принести користь підприємствам, які намагаються виконувати робочі навантаження ШІ.
Із Cloud Run їм не потрібно купувати та розміщувати апаратні обчислювальні ресурси локально, а також не треба витрачати більше на створення типового прикладу хмари.
«Коли ваш застосунок не використовується, то служба автоматично зменшується до нуля, щоб із вас не стягувалася плата», — йдеться у дописі Google у блозі.
Компанія стверджує, що нова функція відкриває нові варіанти використання для розробників.
Зокрема, виконання висновків у реальному часі за допомогою легких відкритих моделей, таких як відкриті моделі Gemma (2B/7B) від Google або Llama 3 (8B) від Meta, для створення спеціальних чат-ботів або підбиття підсумків виконання документів під час масштабування для обробки гострого трафіку користувачів.
У Google повідомили, що цю послугу можна використовувати для прискорення ресурсомістких служб Cloud Run, таких як розпізнавання зображень за запитом, перекодування, потокове передавання відео і 3D-рендеринг.
Читайте також на нашому сайті: Google Cloud додав можливості обробки граф у свою службу даних SQL Spanner.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!