Ще кілька років тому ми дивувалися, як вправно Chat GPT пише вірші, а зараз можемо відправити йому фото з вмістом холодильника, попросити скласти меню з наявних продуктів і отримати цілком реальні рекомендації. Ці зміни у тому, як LLM-мки сприймають та інтерпретують інформацію від користувача, відбулися майже непомітно. Але по факту це не просто оновлення функціоналу, а якісний крок вперед, завдяки якому ми зараз працюємо з мультимодальним ШІ.
Мультимодальний ШІ — це штучний інтелект, який вміє не просто читати текст, а одночасно «бачити» зображення та «чути» звуки, поєднуючи цю інформацію для повного розуміння ситуації. Він працює подібно до людини: сприймає світ через комплекс різних сигналів, а не лише через слова.
Еволюція від унімодального до мультимодального ШІ
Хоча ми нечасто використовували термін «унімодальний ШІ», перші масові чат-боти були саме ним — вони сприймали текстові запити та відповідали так само текстом. Щоб змусити штучний інтелект розпізнавати образи, доводилося йти на інженерні хитрощі та штучно поєднувати NLP-системи, що відповідають за обробку природної мови, з Computer Vision — технологією розпізнавання образі).
Орієнтовно перехід від унімодальності до мультимодальності прийшовся на початок 2020 року, а перші масові мультимодальні ШІ-рішення стали доступними у 2021-2022-х: спочатку нейронна мережа CLIP від OpenAI, а трохи пізніше — Flamingo від DeepMind. CLIP була цікава тим, що створювала цілісний векторний простір для текстових та візуальних репрезентацій, тобто одночасно розуміла і текст, і зображення. А Flamingo вміла генерувати текстові описи фото, відео та звуків. Це дозволило реалізувати перші функції пошуку за зображеннями, але система не бачила деталей і втрачала контекст — це було її головним недоліком.
Далі настала ера нативної мультимодальності: нарешті з’явилися архітектури, треновані з нуля на змішаних даних. Google Gemini стала однією з перших моделей, які від початку створювалася як мультимодальні. Тоді, у 2023 році (про вихід моделі стало відомо у грудні) вона не розділяла аудіо, відео чи текст — для неї це був єдиний потік інформації. Такий підхід дозволив Gemini перевершити GPT-4 у завданнях, що вимагали розуміння складних відео- та аудіоконтекстів. Проте й OpenAI не забарилася з відповіддю: у травні 2024 року вона випустила omni-модель GPT-4o, яка остаточно стерла межі між типами даних, дозволяючи реагувати на емоції в голосі та зміни у відеопотоці в реальному часі з мінімальною затримкою.
У 2026-му, мультимодальність вже не є трендом — скоріше, це базова функція будь-якої флагманської моделі. Навіть більше: мультимодальні моделі дедалі складнішають та отримують нові можливості. Наприклад, анонсована у листопаді минулого року ERNIE 4.5-VL-28B-A3B-Thinking від китайського технологічного гіганта Baidu демонструє розширені мовні здібності, покращену логіку, навички пам'яті та високий емоційний коефіцієнт, що сприяє розумінню навіть складних завдань. Крім того, вона краще за рішення від конкурентів працює з корпоративними даними, що включають інженерні схеми, відео з виробничих ліній, медичні зображення тощо.
У звіті Forrester 2025 AI Value Report міститься інформація, що організації повідомляють про скорочення часу обробки документів на 25-40%. Водночас аналітики McKinsey прогнозують, що корпоративне використання ШІ може додати світовій економіці до $4.4 трлн щорічно завдяки зростанню продуктивності.
В чому переваги та недоліки мультимодального ШІ
Провідні консалнтингові компанії з’ясували, що мультимодальності вирішує три стратегічні завдання, які раніше були недосяжними для «текстового» ШІ:
Формулює поглиблені обґрунтовані відповіді. На відміну від звичайних LLM, які часто «галюцинують» (тобто вигадують факти), мультимодальні системи можуть звіряти свої відповіді з корпоративною базою даних в реальному часі.
Приклад: інженер запитує про порядок ремонту обладнання, ШІ у відповідь не присилає потрібний фрагмент з інструкції, а перевіряє поточний стан обладнання через камеру і співставляє його зі схемами. Це критично для таких галузей як медицина чи виробництво, де ціна помилки дуже висока.
Готує аналітичні звіти на основі гібридних даних. Мультимодальність дозволяє поєднувати структуровані дані з неструктурованим візуальним та аудіоконтекстом. Завдяки цьому можна отримати цілісну картину подій, яку неможливо скласти, спираючись лише на цифри.
Приклад: ШІ аналізує ефективність рекламної кампанії, поєднуючи дані про продажі з CRM (цифри) з відеозаписами поведінки покупців у магазині (відео). Система бачить, що клієнти зупиняються біля нової вітрини (відео), беруть товар до рук, але повертають його назад через незручну упаковку, хоча за чеками (цифри) це виглядає просто як «низький попит». Це дозволяє виявити справжню причину падіння продажів, яку не видно в таблицях Excel.
Впроваджує гіперперсоналізований підхід у клієнтський сервіс. Асистенти нового покоління виходять за межі текстових шаблонів, реагуючи на візуальні та аудіальні підказки користувача. Це створює інтерфейс, що відчувається природним та інтуїтивно зрозумілим.
Приклад: ШІ-система, яку використовує служба підтримки, розпізнає роздратування в голосі клієнта під час дзвінка, а також може аналізувати відеозапис екрана, який він надіслав, щоб миттєво діагностувати проблему без довгих розпитувань. За даними Forrester, такий підхід збільшує конверсію на 18% і підвищує середній чек, оскільки клієнт відчуває, що його розуміють «з півслова».
У бізнесу зараз є можливість залучити ту мультимодальну модель ШІ, яка відповідатиме його потребам. Як це краще зробити, розповідає Анар Лавренов, SPUNCH Co-Founder:
«При виборі підходящого двигуна для ШІ мультимодального агента потрібно зважувати основні мультимодальні метрики: не є здивуванням, що Gemini 3 Pro є лідером, оскільки початково навчалася на мультимодальних даних в той час, як GPT та Claude використовували окремі енкодери зображень для передачі інформації в основну LLM. Серед визнаних спільнотою бенчмарків потрібно відзначити mathvista DocVQA та MMMU. Ось посилання на корисні бенчмарки:Vision Arena та MMMU-Pro».
Виклики впровадження та погляд у майбутнє
Попри стрімкий розвиток, мультимодальний ШІ залишається складною технологією, а отже має свої недоліки. Їх важливо розуміти компаніям, які планують інтеграцію таких рішень у свої бізнес-процеси:
Вартість та затримка. Обробка відеопотоку у високій якості потребує в рази більше обчислювальних ресурсів, ніж текст. Представлення одного зображення може «коштувати» моделі понад 2000 токенів, що сповільнює час реакції. Рішенням стають методи оптимізації токенів, які дозволяють зменшити навантаження на пам'ять GPU до 20% без втрати точності розпізнавання.
Ризик галюцинацій. Мультимодальні моделі можуть «бачити» те, чого немає, або помилково інтерпретувати візуальні дані (наприклад, прийняти тінь на знімку МРТ за патологію). Для боротьби з цим впроваджують архітектури RAG, які змушують модель перевіряти свої висновки за надійними джерелами, та системи мультиагентної верифікації, де кілька незалежних ШІ-агентів перевіряють один одного перед наданням фінальної відповіді.
Приватність даних. Аналіз відео з камер спостереження чи записів дзвінків створює безпрецедентні ризики для конфіденційності. Відповіддю індустрії стають технології федеративного навчання, де модель вчиться на пристрої без передачі даних у хмару, та автоматична анонімізація відеопотоку в реальному часі.
Що далі?
Розвиток мультимодальності зміщується від простого сприйняття контенту до глибинного розуміння простору та причинно-наслідкових зв'язків. Наступне покоління моделей не просто ідентифікуватиме об'єкти на відео (наприклад, «це чашка»), а розумітиме їхні фізичні властивості, положення в 3D-просторі та можливі сценарії взаємодії («чашка стоїть на краю і зараз впаде»). Саме це перетворить мультимодальний ШІ на інструмент активної дії, а успіх технології вимірюватиметься вже не точністю опису картинки, а здатністю моделювати реальність і адекватно реагувати на неї.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!