ProIT: медіа для профі в IT
2 хв

Cohere запускає Embed 4 — векторну модель для бізнесу з підтримкою сканів і рукописів

author avatar ProIT NEWS

Компанія Cohere запустила Embed 4 — оновлену модель із векторизацією і підтримкою мультимодальності та збільшеним контекстним вікном. Це рішення створено з урахуванням потреб підприємств у сфері retrieval-augmented generation (RAG), що набирає популярності на фоні зростання зацікавленості у агентних системах на базі ШІ, повідомляє Venture Beat.

Модель Embed 4 розвиває ідеї попередньої версії Embed 3 і значно розширює можливості роботи з неструктурованими даними. Завдяки вікну контексту у 128 000 токенів, Embed 4 здатна обробляти документи обсягом до 200 сторінок.

«Сучасні моделі векторних представлень не можуть нативно працювати зі складними мультимодальними бізнес-матеріалами, через що компанії змушені створювати складні пайплайни для попередньої обробки даних, що лише трохи покращує точність. Embed 4 вирішує цю проблему, даючи змогу швидко виявляти приховані інсайти в масивах непошукової інформації», — пояснюють у Cohere.

Основні можливості Embed 4:

Підтримка розгортання у приватних хмарах або локальній інфраструктурі, що підвищує безпеку даних.

Генерація векторних представлень для документів, які агенти ШІ можуть використовувати для відповідей на запити.

Робота зі сканованими документами й рукописним текстом, типовими для юридичних документів, медичних рахунків і квитанцій.

Висока стійкість до «шумних» даних: орфографічних помилок, варіацій форматування тощо.

Підтримка 100+ мов, як і у попередній версії.

Оптимізація зберігання за рахунок стислих векторів, що дає змогу скорочувати витрати на інфраструктуру.

Cohere позиціонує Embed 4 як особливо корисну модель для регульованих сфер — фінансів, охорони здоровʼя, виробництва. Вона вже використовується для створення векторних представлень у:

презентаціях для інвесторів;

документації з due diligence;

звітах клінічних досліджень;

інструкціях із ремонту;

технічних описах продуктів.

У компанії Agora, яка використовує Embed 4 для власної пошукової системи, підтвердили її ефективність.

«E-commerce дані складні: вони містять зображення та багаторівневі описи. Уніфіковане представлення товарів у вигляді embedding дозволило нам пришвидшити пошук і зробити внутрішні інструменти ефективнішими», — сказав Парам Джаггі, засновник Agora.

Агентні сценарії використання

Cohere заявляє, що Embed 4 значно підсилює агентні кейси завдяки точному пошуку по різних типах даних і продуктивності рівня enterprise. Embed 4 створено для масштабування під потреби великих організацій і скорочення витрат, повʼязаних зі зберіганням великих обсягів векторних даних.

Модель дає змогу агентам ШІ надійно знаходити релевантні документи, що покращує точність відповідей і зменшує ризик галюцинацій ШІ.

Конкурентами Embed 4 є, зокрема, Qodo-Embed-1-1.5B від Qodo та моделі Voyage AI, які нещодавно придбала компанія MongoDB.

Нагадаємо, Google LLC представила нові інструменти зі штучним інтелектом для Google Workspace, розширивши можливості платформи Gemini для автоматизації складних бізнес-процесів, створення контенту й аналітики даних.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.