Google презентувала свою першу велику мовну модель із вбудованими механізмами конфіденційності — VaultGemma. Її створили в межах досліджень Google Research, присвячених зниженню ризиків запам’ятовування приватних або захищених авторським правом даних під час навчання ШІ.
Великі мовні моделі здатні відтворювати інформацію з навчальних датасетів, що може призвести до витоку особистих даних або порушення авторських прав. Щоб цього уникнути, команда Google застосувала диференційну конфіденційність — метод, який додає «шум» у процес навчання. Він зменшує ймовірність відтворення оригінальних даних, але водночас впливає на точність і потребує більше ресурсів.
Під час експериментів дослідники визначили базові закони масштабування для моделей із диференційною конфіденційністю: якість результатів залежить від балансу між кількістю даних, рівнем доданого шуму й обчислювальною потужністю. Висновки допомогли створити VaultGemma — експериментальну модель, яка демонструє такий баланс.
VaultGemma побудована на основі попереднього покоління відкритої моделі Gemma 2 і налічує лише 1 мільярд параметрів. Попри невеликий розмір, її продуктивність не поступається моделям аналогічного класу без функцій конфіденційності.
Google позиціює VaultGemma як експериментальний проєкт, який може вплинути на майбутнє приватних ШІ-рішень, особливо у випадку невеликих моделей для вузьких завдань.
Завантажити модель можна на Hugging Face та Kaggle. Вона має відкриті ваги, проте не є повністю open source: модифікації й поширення можливі лише з дотриманням ліцензії Gemma.
Раніше Google анонсувала появу EmbeddingGemma — багатомовної текстової embedding-моделі, оптимізованої для роботи безпосередньо на смартфонах, ноутбуках та інших edge-пристроях.