Зростання інтересу до мультимодальних систем штучного інтелекту стимулює появу маломасштабних версій цих інструментів.
Протягом останніх років ми спостерігаємо стрімке зростання великих мовних моделей (LLM), що мають мільярди параметрів і здатні виконувати завдання, як-от аналіз, створення тексту й зображень, а також створення чат-ботів, що імітують людське спілкування.
Однак такі потужні інструменти мають свої обмеження. Вони потребують значних обчислювальних ресурсів, що робить їх недоступними для багатьох користувачів. У відповідь на це з’являються малі мовні моделі (SLM), створені для менш ресурсозатратних сценаріїв.
Зі зростанням популярності мультимодальних систем, здатних обробляти текст, зображення, аудіо й відео, почали з’являтися маломасштабні мультимодальні моделі. Ми пропонуємо розглянути п’ять із них, що заслуговують на увагу за версією The New Stack.
1. TinyGPT-V
Ця модель із 2,8 мільярдами параметрів забезпечує обробку тексту й зображень із мінімальними ресурсозатратами. Вона використовує оптимізовані трансформерні шари й поєднує текстові входи із зображеннями за допомогою спеціалізованого механізму.
TinyGPT-V підходить для малих і середніх компаній або навчальних і дослідницьких закладів з обмеженим бюджетом.
2. TinyLlaVA
Ця модель інтегрує візуальні енкодери (наприклад, CLIP-Large), декодери для маломасштабних LLM та індивідуальні навчальні алгоритми, забезпечуючи високу продуктивність із мінімальними ресурсозатратами. Її можна налаштовувати за допомогою навчальних даних, таких як LLaVA-1.5 і ShareGPT4V.
TinyLlaVA відзначається високою ефективністю й доступністю без втрати якості роботи.
3. GPT-4o mini
Ця зменшена версія OpenAI GPT-4o коштує на 60% дешевше у використанні, ніж GPT-3.5 Turbo, і підтримує обробку тексту й зображень. GPT-4o mini включає велику контекстну довжину до 128K токенів, а також функції безпеки, що захищають від атак. Її застосовують у розробці чат-ботів, освітніх застосунках та інтерактивних іграх.
4. Phi-3 Vision
Ця візуально-мовна модель Microsoft має 4,2 мільярда параметрів і здатна аналізувати графіки, таблиці та зображення.
Phi-3 Vision ідеально підходить для середовищ з обмеженими ресурсами, забезпечуючи високу продуктивність офлайн і конфіденційність користувачів.
5. Mississippi 2B і Mississippi 0.8B
Розроблені H2O.ai, ці мультимодальні моделі призначені для аналізу документів і розпізнавання зображень у реальному часі. Їх можна застосовувати у банківській, страховій і фінансовій сферах для автоматизації обробки документів. Моделі доступні на платформі Hugging Face для вільного використання.
Доступність та економічна ефективність залишаються головними викликами для мультимодальних моделей. Проте поява маломасштабних і потужних інструментів відкриває нові можливості для їхнього використання в різних сферах — від досліджень до малого бізнесу.
Раніше ми повідомляли, що Anthropic випустила новий протокол із відкритим вихідним кодом, який дозволяє всім системам штучного інтелекту, а не лише власній, підключатися до джерел даних через стандартний інтерфейс.
Читайте також на ProIT: Нова функція Google Chrome на основі ШІ допомагає перевіряти надійність сайтів.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!