глоссарий

Извлечение данных из документов

ИИ-обработка документов как шаг управляемого процесса: OCR, LLM-извлечение, классификация, сверка по правилам и контроль человека.

Извлечение данных из документов — это получение структурированных полей (дат, сумм, реквизитов, позиций в таблицах) из неструктурированных файлов: счетов, актов, договоров, заявок, паспортов. В отличие от простого распознавания это процесс из нескольких слоёв: распознавание текста (OCR), извлечение полей по описанию (правилами или LLM), классификация типа документа, сверка по правилам и учётным системам, передача спорных случаев человеку.

Где проходит граница OCR и LLM: OCR превращает изображение в текст и работает на чистых типовых формах — добавил правила извлечения и закрыл задачу без LLM. LLM-извлечение нужно на разнородных документах: разные шаблоны счетов, свободный текст, нетиповые формулировки. В проде живёт связка: OCR делает грубую работу с текстом, LLM — тонкую с пониманием, детерминированная сверка ловит то, чему верить нельзя. Попытка обойтись одним слоем — частая причина, почему «у нас распознавание работает, а в учёте всё равно ошибки».

Контроль человека — не «опциональная фича»: любая автоматическая обработка даёт ошибки, и вопрос только в том, видны ли они до того, как ушли в учёт. Поэтому делаются явные пороги уверенности, очередь ручной сверки и трассировка «какое поле извлечено как и из какой строки» — см. ИИ-обработку документов и автоматизацию процессов.

Все термины