Компанія H2O.ai, постачальник платформ на основі відкритого коду для штучного інтелекту, оголосила про випуск двох нових візуально-мовних моделей, розроблених для покращення аналізу документів і задач оптичного розпізнавання символів (OCR), повідомляє Venture Beat.
Моделі під назвами H2OVL Mississippi-2B і H2OVL Mississippi-0.8B демонструють конкурентоспроможність порівняно з набагато більшими моделями від провідних технологічних компаній, потенційно пропонуючи більш ефективне рішення для бізнесів, які працюють із великим обсягом документів.
Давид проти Голіафа: як малі моделі H2O.ai перемагають гігантів технологій
Модель H2OVL Mississippi-0.8B, яка має лише 800 мільйонів параметрів, перевершила всі інші моделі, включно з тими, що мають мільярди параметрів, у завданні розпізнавання тексту OCRBench. Тим часом модель H2OVL Mississippi-2B із 2 мільярдами параметрів продемонструвала сильну загальну продуктивність на різних тестах візуально-мовних моделей.
«Ми розробили моделі H2OVL Mississippi як високопродуктивне й економічно ефективне рішення, яке забезпечує бізнесам можливості AI для OCR, візуального розуміння та обробки документів. Поєднуючи передовий мультимодальний AI з ефективністю, H2OVL Mississippi надає точні масштабовані рішення для документів у різних галузях», — повідомили розробники.
Відкритий доступ до моделей на популярній платформі Hugging Face дає змогу розробникам і бізнесам модифікувати й адаптувати ці моделі під свої специфічні потреби у сфері обробки документів.
Традиційні методи OCR та аналізу документів часто стикаються з проблемами через неякісні скановані копії, складний почерк або дуже змінені документи. Нові моделі H2O.ai спрямовані на вирішення цих питань, пропонуючи при цьому більш ресурсоефективну альтернативу великим мовним моделям, які можуть бути зайвими для певних завдань, пов'язаних з обробкою документів.
Аналітики галузі зазначають, що підхід H2O.ai може змінити наявний ландшафт, де домінують технологічні гіганти. Фокусуючись на менших, більш спеціалізованих моделях, H2O.ai може захопити значну частину ринку, який цінує ефективність та економічність.
H2O.ai залучив $256 мільйонів інвестицій від таких компаній, як Commonwealth Bank, NVIDIA, Goldman Sachs і Wells Fargo. Відкритий підхід компанії та зосередженість на практичних рішеннях для бізнесу допомогли їй створити спільноту із понад 20 тисяч організацій, включно з більш ніж половиною компаній зі списку Fortune 500.
У той час, коли компанії продовжують боротися з цифровою трансформацією і потребою вилучення цінної інформації з неструктурованих даних, нові моделі H2O.ai можуть стати привабливим варіантом для тих, хто шукає рішення для обробки документів із меншими обчислювальними витратами. Хоча справжнє випробування буде в реальних застосунках, демонстрація конкурентоспроможної продуктивності малих моделей H2O.ai вказує на перспективний напрям для майбутнього AI у бізнесі.
Читайте на ProIT лайфхаки, як використовувати ChatGPT для аналізу PDF-файлів.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!