Перейти к содержимому
Carbonfay
EN

Знания и поиск

ИИ-агент построения векторной базы знаний

ИИ-агент собирает векторную базу из ваших источников: нормализует, чанкует, строит эмбеддинги и держит индекс свежим по событиям изменения. Фундамент, на котором работает RAG.

«Хотим ИИ, который отвечает по нашим документам» почти всегда упирается не в модель, а в данные. Можно взять лучшую LLM и получить уверенные выдумки, если поиск выдаёт ей мусор. Агент построения векторной базы закрывает этот участок: нормализует разнородные источники, режет на смысловые фрагменты, строит эмбеддинги и держит индекс свежим — это фундамент, на котором уже работает RAG.

Что он делает

Подтягивает документы из ваших источников, чистит разметку и дубли, размечает метаданные и режет на смысловые чанки с учётом структуры документа. Считает эмбеддинги и кладёт в векторный индекс. По событию изменения документа переиндексирует только его, а не пересобирает базу целиком, — индекс не устаревает между ручными прогонами. На выходе — чистый, свежий, правильно нарезанный поиск, поверх которого предсказуемо работают RAG-системы и агенты поддержки.

Почему это отдельный агент

Качество ответа RAG определяется не столько моделью, сколько индексом под ней: как нормализованы источники, как нарезаны чанки, насколько свеж индекс. Это инженерная задача с понятными рычагами — размер чанка, метаданные, стратегия переиндексации, — а не «вшитое знание» внутри модели. Подробнее об инженерии — на странице векторных баз данных; собирается под ваш процесс на той же платформе, что и ИИ-агенты поверх этой базы.

Как устроена цепочка

  1. 01
    Нормализация источников · детерминированный код

    Подтягивает документы из источников, чистит разметку, выкидывает мусор и дубли, размечает метаданные — мусор на входе даёт мусор в поиске.

  2. 02
    Чанкование · лёгкая модель

    Режет документы на смысловые фрагменты с учётом структуры, а не по N символов. От размера чанка напрямую зависит, найдётся ли нужное.

  3. 03
    Построение и обновление индекса · эмбеддер

    Считает эмбеддинги и кладёт в векторный индекс. По событию изменения документа переиндексирует только его — индекс не устаревает.

Интеграции

OpenAI YandexGPT Google Sheets

+ любой внешний API

Калькулятор стоимости

200
2
Токены, ₽/мес
Разработка, ₽
Поддержка, ₽/мес

Оценка по усреднённой ставке за токен (вход+выход). Точная стоимость зависит от длины контекста, числа вызовов и доли ручного контроля — посчитаем по вашему процессу.

связанные кейсы

частые вопросы

Вопросы по делу

Векторная база — это и есть RAG?
Нет, и это важно. Векторная база — это хранилище эмбеддингов и поиск по ним; RAG — это сценарий поверх неё: нашли фрагменты, отдали в модель, получили ответ со ссылкой. Этот агент строит и поддерживает именно фундамент — чистый, свежий, правильно нарезанный индекс. Без него RAG-агент будет уверенно отвечать по мусору.
Почему нельзя просто загрузить документы в модель?
Контекст модели ограничен и дорог, а корпоративная база — это тысячи документов, которые ещё и меняются. Поэтому знания держат во внешнем индексе и подтягивают по запросу только релевантное. Качество поиска при этом определяется не моделью, а тем, как нормализованы источники и нарезаны чанки.
Как индекс остаётся актуальным?
Агент работает по событиям: изменился документ в источнике — переиндексируется только он, а не вся база. Так свежий регламент попадает в поиск без ручного пересбора, а устаревшие версии не всплывают в ответах. Расписание и триггеры настраиваются под то, как часто меняются ваши источники.
Откуда берутся источники?
Из ваших систем по их контрактам: файловые хранилища, базы знаний, CRM, история обращений, выгрузки. Агент нормализует разнородные форматы к единому виду с метаданными, чтобы поиск работал поверх всего корпуса одинаково, а не разваливался на каждом новом источнике.

Следующий шаг

Спроектируем слой автоматизации на ИИ под ваши процессы.

DBCV