Mistral випускає Codestral Mamba для швидшої та тривалої генерації коду

Французький стартап зі штучного інтелекту Mistral, відомий своїми потужними моделями штучного інтелекту з відкритим кодом, запустив два нові елементи у своїй зростаючій сім’ї великих мовних моделей (LLM). Це модель на основі математики та модель генерації коду для програмістів і розробників, яка базується на архітектурі, відомій як Mamba, розробленій іншими дослідниками наприкінці минулого року.

Venture Beat пише, що Mamba прагне підвищити ефективність архітектури, яка використовується більшістю провідних LLM.

Моделі на основі Mamba, на відміну від більш поширених на основі трансформерів, можуть мати швидший час висновку та довший контекст. Інші компанії та розробники, включно з AI21, випустили нові моделі ШІ на його основі.

Тепер, використовуючи цю нову архітектуру, Mistral пропонує Codestral Mamba 7B, яка забезпечує швидкий час відгуку навіть із довшими вхідними текстами. Codestral Mamba добре працює для випадків використання продуктивності коду, особливо для більш локальних проєктів кодування.

Компанія Mistral протестувала модель, яку можна буде безкоштовно використовувати в API Mistral la Plateforme, обробляючи вхідні дані до 256 тисяч токенів. Це удвічі більше, ніж GPT-4o OpenAI.

У порівняльних тестах Mistral показав, що Codestral Mamba показав кращі результати, ніж конкуруючі моделі з відкритим кодом CodeLlama 7B, CodeGemma-1.17B і DeepSeek у тестах HumanEval.

Діаграма з Mistral із детальним описом продуктивності Codestral Mamba.

Розробники можуть змінювати та розгортати Codestral Mamba зі сховища GitHub і через HuggingFace. Він буде доступний із відкритою ліцензією Apache 2.0.

У Mistral стверджували, що попередня версія Codestral перевершила інші генератори коду, такі як CodeLlama 70B і DeepSeek Coder 33B.

Генерація коду та помічники з кодування стали широко використовуваними програмами для моделей штучного інтелекту, а такі платформи, як Copilot від GitHub на основі OpenAI, CodeWhisperer від Amazon і Codenium, набувають популярності.

Mathstral підходить для випадків використання STEM

Друга модель Mistral — це Mathstral 7B, модель штучного інтелекту, розроблена спеціально для математичних міркувань і наукових відкриттів. Mistral розробив Mathstral разом із Project Numina.

Mathstral має контекстне вікно розміром 32 КБ і працюватиме під ліцензією Apache 2.0 з відкритим кодом.

Розробники стверджують, що модель перевершила всі моделі, розроблені для математичних міркувань. Вона може досягти значно кращих результатів на тестах із більшою кількістю обчислень часу висновку. Користувачі можуть використовувати його як є або точно налаштувати модель.

Діаграма з Mistral, що показує оцінки Mathstral.

«Mathstral є ще одним прикладом чудових компромісів між продуктивністю і швидкістю, досягнутих під час створення моделей для конкретних цілей. Це філософія розробки, яку ми активно пропагуємо в la Plateforme, зокрема завдяки її новим можливостям тонкого налаштування», — йдеться у блозі Mistral.

Доступ до Mathstral можна отримати через Mistral's la Plataforme і HuggingFace.

Mistral, який, як правило, пропонує свої моделі на системі з відкритим вихідним кодом, стабільно конкурує з іншими розробниками ШІ, такими як OpenAI та Anthropic.

Нещодавно компанія залучила $640 мільйонів у межах серії B, наблизивши оцінку до $6 мільярдів. Крім того, отримала інвестиції від таких технологічних гігантів, як Microsoft та IBM.

Читайте також на ProIT: Як використовувати LLM на своїй машині: встановіть Ollama AI на Ubuntu Linux.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!