"Чем создание RAG-системы сложнее, чем «векторная база + промпт»?"

"«Векторная база + промпт» работает на демо и ломается в проде: индекс устаревает, поиск шумит, контекст не ограничен. Рабочая RAG-система — это нормализация и версионирование источников, индексация по событиям, гибридный поиск с переранжированием, бюджеты контекста и постоянная оценка качества."

"Локальная RAG-система или на внешних моделях?"

"Зависит от требований к данным и стоимости. Архитектура одна; различается слой модели. Мы проектируем так, чтобы модель была сменной — локальная, внешняя или гибридная связка по шагам."

"Как понять, что RAG работает корректно?"

"По метрикам релевантности и обоснованности (ответ опирается на источники, а не на память модели), регрессионным наборам и трассировке: какой фрагмент повлиял на ответ. Без этого деградация незаметна."

ИИ-системы

RAG-системы

Разработка RAG-системы (retrieval-augmented generation): поиск по корпоративным знаниям как инженерная инфраструктура — источники, индексация по событиям, переранжирование, оценка качества.

Большинство RAG-систем ломаются в проде не из-за модели, а из-за контекста. «Векторная база плюс промпт» — это прототип: он работает на демо, потому что данные маленькие, свежие и подобраны под вопросы. В проде каждое из этих допущений перестаёт выполняться, и система начинает уверенно отвечать неправильно.

Источники и индексация

Внутренние документы, переписки, задачи, репозитории, CRM приводятся к единому виду и версионируются. Индекс пересобирается по событию изменения источника, а не раз в неделю по расписанию. Это убирает целый класс «уверенно устаревших» ответов — самый коварный, потому что он невоспроизводим и его невозможно отладить по жалобе пользователя.

Поиск и подача контекста

Гибридный поиск: плотный находит кандидатов по смыслу, лексический отсекает «похоже, но не то», переранжирование расставляет по релевантности к конкретному запросу. В модель идёт не «всё, что нашли», а переранжированный минимум в пределах заданного бюджета контекста. Это одновременно про качество и про стоимость: на длинном зашумлённом контексте модель хуже выделяет существенное и дороже обходится.

Оценка качества

Без неё RAG деградирует незаметно. Нужны метрики релевантности и обоснованности — насколько ответ опирается на поданный контекст, а не на память модели, — регрессионные наборы с известными ответами и трассировка: какой именно фрагмент повлиял на ответ. Отдельно проектируется поведение «в источниках этого нет»: честный отказ полезнее уверенного домысла, но сам по себе он не появляется.

Где проходит граница

Если на демо качество отличное, а в проде «иногда врёт» — почти всегда виноваты свежесть индекса и отсутствие переранжирования, а не алгоритм поиска и не модель. «Добавим больше контекста» чаще ухудшает, чем улучшает: точность сильнее зависит от релевантности контекста, чем от его полноты. RAG — это инфраструктура контекста, а не настройка модели.

Векторная база данных — это ещё не RAG

Векторная база данных хранит эмбеддинги и отвечает на запрос «что похоже по смыслу» — это один компонент, а не система. Рабочая RAG-система — это всё, что вокруг неё: нормализация и версионирование источников, событийная индексация, гибридный поиск с переранжированием, бюджеты контекста и оценка качества. Векторная база отвечает на вопрос «что похоже»; RAG-система отвечает на вопрос «что подать в модель, чтобы ответ был обоснован и воспроизводим». Подмена одного другим — частая причина, почему «векторная база + промпт» отлично выглядит на демо и плывёт в проде.

Разработка под задачу

Мы проектируем RAG как сменный по модели слой ИИ-системы: локальный, на внешних моделях или гибридный — под ваши требования к данным и стоимости. Поиск по знаниям — частый шаг в работе ИИ-агентов и в автоматизации процессов.

RAG-системы

Источники и индексация

Поиск и подача контекста

Оценка качества

Где проходит граница

Векторная база данных — это ещё не RAG

Разработка под задачу

Глубже по теме

Вопросы по делу

ИИ-ассистент клиентского взаимодействия и рекомендаций

Платформа корпоративных знаний и контекста для ИИ

Спроектируем слой автоматизации на ИИ под ваши процессы.