Google презентувала LangExtract — Python-бібліотеку для вилучення даних із неструктурованого тексту

Google випустила LangExtract — відкриту Python-бібліотеку, яка спрощує процес отримання структурованої інформації з неструктурованого тексту за допомогою великих мовних моделей (LLM), зокрема Gemini. Рішення орієнтоване на конвертацію вільного тексту — від клінічних записів і юридичних документів до відгуків клієнтів — у структуровані дані. Про це йдеться в матеріалі InfoQ.

Розробники можуть визначати завдання для вилучення даних за допомогою інструкцій природною мовою і прикладів, що значно полегшує обробку різних типів контенту.

Основні можливості LangExtract

1. Керована генерація (controlled generation) — забезпечує стабільне форматування й точне прив’язування отриманої інформації до її джерела в тексті.

2. Виділення релевантних фрагментів — кожна знайдена сутність посилається на своє точне місце в оригінальному документі, що підвищує прозорість і надійність результатів.

3. Обробка великих документів — використання текстового чанкiнгу, паралельної обробки та багатопрохідного вилучення для підвищення повноти й точності.

LangExtract підходить для широкого спектру завдань — від медицини до юридичної сфери — і не вимагає складного донавчання LLM.

Гнучка інтеграція

Бібліотеку можна використовувати як із хмарними моделями (наприклад, Gemini), так і з локальними моделями через платформи на кшталт Ollama. Це дає змогу застосовувати її в різних середовищах і з різними мовними моделями без глибоких знань ML.

До запуску також долучилася спільнота: з’явився TypeScript-порт LangExtract із підтримкою моделей OpenAI і Gemini.

LangExtract розповсюджується за ліцензією Apache 2.0 і встановлюється через pip.

Читайте також на ProIT: Онлайн-компілятори для C++, PHP, Python, Java, C#, Go і не тільки.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!