Як повідомляє TechTimes, мультимодальні моделі ШІ є удосконаленими версіями великих мовних моделей, оскільки вони можуть обробляти різні форми медіа, такі як тексти, зображення, звукозаписи та відео.
Наприклад, тепер ви можете включити свою камеру та попросити модель ШІ OpenAI описати, що вас оточує.
Meta планує запустити подібний інструмент із власною мультимодальною моделлю Chameleon. За словами фахівців команди Meta Chameleon, модель є серією змішаних модальних моделей на основі токенів раннього злиття, здатних розуміти та генерувати зображення та текст у будь-якій довільній послідовності.
З удосконаленням попередньої техніки, відомої під назвою «пізнє злиття», Chameleon не потребує обробки даних як окремих об’єктів.
TechXplore пояснює, що команда розробила систему, яка плавно інтегрує різні дані, такі як зображення, текст і код, перетворюючи їх у загальний набір токенів.
Дослідники відзначають, що на відміну від Gemini, Chameleon є наскрізною моделлю, що зробило непотрібними декодери зображень. Вони також розробили та використали нові типи методів навчання, щоб дозволити цій моделі працювати з декількома типами токенів, які включали двоетапне навчання та величезний набір даних із приблизно 4,4 трильйонів текстів, зображень або пар токенів разом із перемежованими даними. Система була навчена з використанням 7 мільярдів, а потім 34 мільярдів параметрів протягом 5 мільйонів годин на високошвидкісному GPU.
Використовуючи уніфікований словник, система може ефективно обробляти та одночасно перетворювати різні типи даних, покращуючи загальну обробку та розуміння складної інформації.
Читайте на ProIT: Meta Platforms Inc. та International Business Machines Corp. об’єднуються з понад 50 компаніями й організаціями, щоб створити галузеву групу – AI Alliance для роботи з ШІ із відкритим кодом з метою обміну технологіями та зниження ризиків.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!