Перейти к содержимому
Carbonfay

инженерные заметки

RAG: где помогает, а где создаёт иллюзию знания

Когда RAG реально повышает точность, а когда лишь уверенно ошибается, и как отличить понимание бизнеса от поиска по базе.

Коротко для руководителя. RAG (поиск по знаниям + модель) реально повышает точность, когда ответ есть в источниках и его можно найти. Но тот же механизм создаёт иллюзию знания: система уверенно отвечает и там, где найдено не то или ничего. Для бизнеса опасна именно уверенная ошибка — она дороже честного «не знаю», потому что проходит дальше по процессу незамеченной. Граница «где RAG помогает, а где вредит» — это бизнес- решение про цену ошибки, а не технический параметр.


RAG продают как способ «дать модели знать ваши данные». Часть этого обещания правдива: при наличии ответа в источниках точность растёт кратно. Другая часть — ловушка: тот же механизм одинаково уверенно отвечает, когда ответа нет. Разберём, где проходит граница.

Поиск по базе — это не понимание бизнеса.

Гипотеза: RAG — это поиск, а не понимание

RAG не «понимает бизнес». Он находит похожее и пересказывает. Когда нужное найдено — это полезно. Когда найдено похожее, но не то, — модель так же гладко пересказывает неправильное. Поиск по базе и понимание предметной области — разные вещи, и подмена одного другим и есть иллюзия знания.

данные
Точность ответов: модель без поиска vs та же модель с RAG
Базовая модель без поиска (HaluEval)10%Та же модель с RAG (HaluEval)45%Базовая модель без поиска (TriviaQA)5%Та же модель с RAG (TriviaQA)35%

Решает не размер модели, а наличие поиска: на одной и той же модели подключение RAG поднимает точность в разы. Качество ответа определяется тем, какой контекст в неё попал.

Источник: Exploring RAG Solutions to Reduce Hallucinations in LLMs, IEEE, 2024 https://ieeexplore.ieee.org/document/11014810/

Где ответ есть и находится — выигрыш реальный и большой. Это «где помогает».

Проблема: уверенность не зависит от правоты

У RAG-ответа нет встроенного индикатора «я не уверен». Стиль ответа одинаков и когда найден точный фрагмент, и когда подтянут похожий устаревший. Пользователь не видит разницы; система не сигналит. Именно поэтому иллюзия знания опаснее явного незнания: ошибку не видно до последствий.

Почему обычные подходы не работают

«Добавим больше документов» увеличивает шанс, что на любой вопрос найдётся что-то похожее, — а значит, растёт и доля уверенных ответов не по делу.

«Возьмём модель получше» не помогает: модель не знает, что поданный фрагмент не отвечает на вопрос; она делает его связным.

«Будем доверять, раз обычно отвечает верно» не работает там, где цена редкой ошибки высока: средняя точность ничего не говорит о стоимости конкретной уверенной ошибки.

Инженерная модель: где RAG помогает, а где вредит

Помогает, когда: ответ существует в источниках; источники актуальны и версионируются; есть переранжирование (находится отвечающее, а не просто похожее); цена отдельной ошибки умеренная и есть проверка.

данные
Что даёт шаг переранжирования (cross-encoder)
+25–48%
прирост качества поиска от переранжирования (в зависимости от базовой схемы и домена)
+4 nDCG
преимущество cross-encoder над сильным bi-encoder в среднем по BEIR

Переранжирование — тот слой, которого нет в наивной схеме «вектор → модель» и который сильнее всего сдвигает результат из «врёт» в «не врёт».

Источник: BEIR benchmark; исследования cross-encoder reranking, 2022–2024 https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/65b9eea6e1cc6bb9f0cd2a47751a186f-Paper-round2.pdf

Создаёт иллюзию, когда: ответа в источниках может не быть, но система всё равно отвечает; нет оценки обоснованности; нет режима «честно не знаю»; цена ошибки высока (юридические, финансовые, медицинские контексты).

Инженерный ответ — не «больше RAG», а: оценка обоснованности на потоке, явный отказ при недостаточном основании, и калибровка «отвечать / молчать» под цену ошибки процесса.

Практический вывод для бизнеса

Решите, что дороже: молчание или уверенная ошибка. В справочных сценариях дешевле ответить с риском; в юридических и финансовых — дешевле честное «не знаю». Это решение принимается до разработки и определяет архитектуру, а не наоборот.

Требуйте режим отказа. Спросите: что система делает, когда основания недостаточно — отвечает всё равно или честно говорит «не нашёл»? Если «всегда отвечает» — вы покупаете иллюзию знания, а не знание.

Не путайте поиск по базе с пониманием бизнеса. RAG — мощный поиск с пересказом; экспертные решения с высокой ценой ошибки требуют контроля человека на дорогих шагах, а не большей веры в поиск.

Приложить это к вашим процессам — .

Открытые вопросы

Как надёжно измерять обоснованность без ручной разметки — приближаем автоматическими оценками, но не заменяем выборочную проверку. Где именно проходит граница «отвечать / молчать» — бизнес-решение, меняющееся от процесса к процессу. Насколько новые модели лучше калибруют собственную неуверенность — прогресс есть, но на критичных процессах он не отменяет контроль человека.


Если ваша система всегда отвечает — даже когда не нашла, — это иллюзия знания, и она дорого стоит на критичных процессах. — определим цену ошибки и где нужен режим честного «не знаю».

связанные кейсы

Следующий шаг

Спроектируем слой автоматизации на ИИ под ваши процессы.

DBCV