Google представила Gemini 2.5 — нову родину моделей ШІ з підтримкою міркування

Google анонсувала Gemini 2.5 — нове покоління моделей ШІ з функціями міркування (reasoning), які зупиняються, щоб подумати, перш ніж відповісти на запит. Про це повідомляє Tech Crunch.

Gemini 2.5 Pro Experimental

Першою моделлю нового покоління стала Gemini 2.5 Pro Experimental — мультимодальна модель із міркуванням, яку в Google називають найінтелектуальнішою зі створених компанією.

Вона стала доступною 25 березня на платформі для розробників Google AI Studio, а також у застосунку Gemini для підписників плану Gemini Advanced ($20/місяць).

У компанії заявили, що всі наступні моделі ШІ матимуть вбудовані можливості міркування.

Конкуренція у сфері reasoning-моделей

Після запуску моделі o1 від OpenAI у вересні 2024 року провідні гравці Anthropic, DeepSeek, Google, xAI активно розробляють власні reasoning-моделі. Вони використовують додаткові обчислення та час для перевірки фактів і логічного аналізу, перш ніж дати відповідь.

Такі техніки дали можливість досягти нового рівня у задачах із математики та програмування. Фахівці вважають, що моделі з міркуванням стануть основою агентних ШІ-систем, які можуть працювати автономно, без участі людини. Однак ці моделі дорожчі у використанні.

Gemini 2.5 — серйозний виклик серії o від OpenAI

Google вже експериментувала з моделями, що розмірковують, наприклад, у грудневому релізі Gemini. Однак Gemini 2.5 — перша серйозна спроба перевершити серію o від OpenAI.

У компанії стверджують, що Gemini 2.5 Pro:

• перевершує попередні моделі Google;

• випереджає деякі моделі OpenAI, Anthropic і DeepSeek за результатами бенчмарків;

• спеціально оптимізована для створення візуально привабливих вебзастосунків та агентних інструментів для розроблення коду.

Результати тестів

• Aider Polyglot (редагування коду): Gemini 2.5 Pro — 68,6%, краще за моделі OpenAI, Anthropic і DeepSeek.

• SWE-bench Verified (можливості розроблення): Gemini 2.5 Pro — 63,8%, краще за o3-mini (OpenAI) та R1 (DeepSeek), але гірше за Claude 3.7 Sonnet (Anthropic) — 70,3%.

• Humanity’s Last Exam (мультимодальний тест із математики, гуманітарних і природничих наук): Gemini 2.5 Pro — 18,8%, що вище за більшість моделей-конкурентів.

Gemini 2.5 Pro підтримує контекстне вікно на 1 мільйон токенів (приблизно 750 тисяч слів). Це довше, ніж уся серія книг «Володар перснів». У майбутньому модель отримає підтримку до 2 мільйонів токенів.

Google поки не оприлюднила вартість використання API Gemini 2.5 Pro, але обіцяє надати більше інформації найближчими тижнями.

Нагадаємо, Gemini 2.0 отримала можливість нативно генерувати аудіо та зображення, а також надала нові мультимодальні можливості.

Читайте також на ProIT: xAI запускає Grok 3 AI, стверджуючи, що він наділений людським міркуванням.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!