Корпорація Microsoft випустила оновлений набір LLM Phi на Hugging Face, який перевершує конкуруючі моделі від Meta та Google у кількох тестах.
Як стверджує компанія, нові LLM поступаються лише GPT-4o-mini від OpenAI, повідомляє InfoWorld.
В оновленні платформи Phi 3, випущеному у квітні, постачальник хмарних послуг представив три моделі Phi 3.5 за відкритою ліцензією MIТ: Phi 3.5-MoE-instruct, Phi 3.5-mini-instruct і Phi 3.5-vision-instruct.
Модель Phi-3.5-MoE-instruct побудована на наборах даних, які використовуються для синтетичних даних Phi-3, і відфільтрованих загальнодоступних документах з акцентом на дуже високоякісні щільні дані.
Модель пропонує багатомовну підтримку та має довжину контексту 128 КБ (у токенах). Вона призначена для комерційного та дослідницького використання кількома мовами.
«Ця модель забезпечує використання систем і програм штучного інтелекту загального призначення, які вимагають середовища з обмеженням пам’яті/обчислення, сценаріїв, пов’язаних із затримкою, і сильних аргументів (особливо код, математика та логіка)», — йдеться в описі моделі на Hugging Face.
«Наша модель розроблена для прискорення дослідження мовних і мультимодальних моделей для використання як будівельного блоку для генеративних функцій на основі ШІ», — сказано в описі.
Серед порівняльних оціночних моделей міркувань і багатомовних навичок, таких як BigBench, MMLU та ARC Challenge, модель MoE-instruct, хоча й із меншою кількістю параметрів, ніж конкуренти (6,6 мільярда), показала кращі результати, аніж Llama 3.1-8B-instruct, Gemma 2-9b і Gemini 1.5-Flash. Проте не змогла зрівнятися із продуктивністю OpenAI GPT-4o-mini-2024-07-18.
Однак компанія зазначила, що модель все ще принципово обмежена розміром для певних завдань.
«Вона просто не має можливості зберігати занадто багато фактичних знань, тому користувачі можуть зіткнутися із фактологічною невідповідністю», — йдеться у повідомленні.
Цю слабкість можна усунути шляхом доповнення Phi-3.5 пошуковою системою, особливо при використанні моделі у налаштуваннях RAG.
Корпорація Microsoft використовувала 512 графічних процесорів NVIDIA H100-80G для навчання моделі протягом 23 днів на 4,9 трильйонах токенів як навчальних даних.
Подібним чином модель мініінструкцій із підтримкою довжини контексту токенів 128 КБ показала кращі результати, аніж більшість конкурентів, але відстала від останньої моделі 4o-mini від OpenAI.
Модель є оновленою версією Phi-3 Mini, яка базується на відгуках користувачів, повідомили у компанії.
Вона використала додаткові дані після навчання. Це призвело до значного покращення якості багатомовної багаточергової розмови й здатності ШІ міркувати.
Mini, яка використовує той самий токенайзер, що й Phi-3 Mini, навчалася на 512 графічних процесорах NVIDIA H100-80G протягом 10 днів на 3,4 трильйона токенів.
Третя нова модель Phi 3.5-vision-instruct також перевершила пропозиції конкурентів, незважаючи на меншу кількість параметрів, включно із Claude-3.5-Sonnet і GPT-4o-mini.
Модель, яка має 4,2 мільярда параметрів і містить кодер зображення, роз’єм, проєктор і мовну модель Phi-3-Mini, підтримує 128 тисяч токенів. Вона була навчена на 256 графічних процесорах NVIDIA A100-80G протягом 6 днів на 500 мільярдах токенів зображення і тексту.
Раніше ProIT повідомляв, що Microsoft випустила свою найменшу модель ШІ – Phi-3 Mini.
Читайте також про інші моделі: Gemma 2B і 7B від Google зосереджені на мові та чат-ботах, Claude 3 Haiku від Anthropic розроблено для читання й узагальнення великих наукових статей (подібно до CoPilot від Microsoft), а Llama 3 8B від Meta готова допомогти із кодуванням.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!