Google випустила LangExtract — відкриту Python-бібліотеку, яка спрощує процес отримання структурованої інформації з неструктурованого тексту за допомогою великих мовних моделей (LLM), зокрема Gemini. Рішення орієнтоване на конвертацію вільного тексту — від клінічних записів і юридичних документів до відгуків клієнтів — у структуровані дані. Про це йдеться в матеріалі InfoQ.
Розробники можуть визначати завдання для вилучення даних за допомогою інструкцій природною мовою і прикладів, що значно полегшує обробку різних типів контенту.
Основні можливості LangExtract
1. Керована генерація (controlled generation) — забезпечує стабільне форматування й точне прив’язування отриманої інформації до її джерела в тексті.
2. Виділення релевантних фрагментів — кожна знайдена сутність посилається на своє точне місце в оригінальному документі, що підвищує прозорість і надійність результатів.
3. Обробка великих документів — використання текстового чанкiнгу, паралельної обробки та багатопрохідного вилучення для підвищення повноти й точності.
LangExtract підходить для широкого спектру завдань — від медицини до юридичної сфери — і не вимагає складного донавчання LLM.
Гнучка інтеграція
Бібліотеку можна використовувати як із хмарними моделями (наприклад, Gemini), так і з локальними моделями через платформи на кшталт Ollama. Це дає змогу застосовувати її в різних середовищах і з різними мовними моделями без глибоких знань ML.
До запуску також долучилася спільнота: з’явився TypeScript-порт LangExtract із підтримкою моделей OpenAI і Gemini.
LangExtract розповсюджується за ліцензією Apache 2.0 і встановлюється через pip.
Читайте також на ProIT: Онлайн-компілятори для C++, PHP, Python, Java, C#, Go і не тільки.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!