ProIT: медіа для профі в IT
2 хв

П’ять мультимодальних ШІ моделей для обмежених ресурсів

author avatar ProIT NEWS

Зростання інтересу до мультимодальних систем штучного інтелекту стимулює появу маломасштабних версій цих інструментів.

Протягом останніх років ми спостерігаємо стрімке зростання великих мовних моделей (LLM), що мають мільярди параметрів і здатні виконувати завдання, як-от аналіз, створення тексту й зображень, а також створення чат-ботів, що імітують людське спілкування.

Однак такі потужні інструменти мають свої обмеження. Вони потребують значних обчислювальних ресурсів, що робить їх недоступними для багатьох користувачів. У відповідь на це з’являються малі мовні моделі (SLM), створені для менш ресурсозатратних сценаріїв.

Зі зростанням популярності мультимодальних систем, здатних обробляти текст, зображення, аудіо й відео, почали з’являтися маломасштабні мультимодальні моделі. Ми пропонуємо розглянути п’ять із них, що заслуговують на увагу за версією The New Stack.

1. TinyGPT-V

Ця модель із 2,8 мільярдами параметрів забезпечує обробку тексту й зображень із мінімальними ресурсозатратами. Вона використовує оптимізовані трансформерні шари й поєднує текстові входи із зображеннями за допомогою спеціалізованого механізму.

TinyGPT-V підходить для малих і середніх компаній або навчальних і дослідницьких закладів з обмеженим бюджетом.

2. TinyLlaVA

Ця модель інтегрує візуальні енкодери (наприклад, CLIP-Large), декодери для маломасштабних LLM та індивідуальні навчальні алгоритми, забезпечуючи високу продуктивність із мінімальними ресурсозатратами. Її можна налаштовувати за допомогою навчальних даних, таких як LLaVA-1.5 і ShareGPT4V.

TinyLlaVA відзначається високою ефективністю й доступністю без втрати якості роботи.

3. GPT-4o mini

Ця зменшена версія OpenAI GPT-4o коштує на 60% дешевше у використанні, ніж GPT-3.5 Turbo, і підтримує обробку тексту й зображень. GPT-4o mini включає велику контекстну довжину до 128K токенів, а також функції безпеки, що захищають від атак. Її застосовують у розробці чат-ботів, освітніх застосунках та інтерактивних іграх.

4. Phi-3 Vision

Ця візуально-мовна модель Microsoft має 4,2 мільярда параметрів і здатна аналізувати графіки, таблиці та зображення.

Phi-3 Vision ідеально підходить для середовищ з обмеженими ресурсами, забезпечуючи високу продуктивність офлайн і конфіденційність користувачів.

5. Mississippi 2B і Mississippi 0.8B

Розроблені H2O.ai, ці мультимодальні моделі призначені для аналізу документів і розпізнавання зображень у реальному часі. Їх можна застосовувати у банківській, страховій і фінансовій сферах для автоматизації обробки документів. Моделі доступні на платформі Hugging Face для вільного використання.

Доступність та економічна ефективність залишаються головними викликами для мультимодальних моделей. Проте поява маломасштабних і потужних інструментів відкриває нові можливості для їхнього використання в різних сферах — від досліджень до малого бізнесу.

Раніше ми повідомляли, що Anthropic випустила новий протокол із відкритим вихідним кодом, який дозволяє всім системам штучного інтелекту, а не лише власній, підключатися до джерел даних через стандартний інтерфейс.

Читайте також на ProIT: Нова функція Google Chrome на основі ШІ допомагає перевіряти надійність сайтів.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.