Инфраструктура
Операционный аналитический дашборд по ИИ-системам
Живой дашборд состояния агентов, процессов, ошибок, затрат и бизнес-процессов в реальном времени.
Контекст
В проде работало много процессов и агентов на ИИ, но единой картины их состояния и стоимости не было.
Задача
Деградация и перерасход замечались постфактум — по жалобе или по счёту, — а трассировки решений и затрат не было, поэтому причину найти было нельзя.
Ограничения
Низкая задержка телеметрии, корректная привязка стоимости к процессу, аудит решений.
Архитектура
Сбор телеметрии → агрегация → состояние процессов → живой дашборд и оповещения по порогам.
Слой ИИ
Обнаружение аномалий в задержке, стоимости и доле эскалаций — чтобы видеть проблему до того, как она проявится в результате.
Модель событий
Шаги процессов отдают события телеметрии: стоимость, задержка, принятое решение; дашборд строится на потоке, а не на периодических выгрузках.
Интеграции
Среды исполнения процессов, биллинг моделей и трекеры инцидентов подключены через нормализованный слой.
Потоки автоматизации
Оповещения по порогам, автоматическое создание инцидентов с привязкой к конкретному процессу и шагу.
Инфраструктура
Потоковая агрегация, хранение метрик с ретенцией, идемпотентный приём телеметрии.
Наблюдаемость
Это и есть слой наблюдаемости: агенты, процессы, ошибки, затраты и состояния — в одном месте и в реальном времени.
Результаты
Деградация и перерасход видны сразу, реакция стала быстрее, причину можно установить по трассировке.
Чему научились
Без наблюдаемости ИИ-система деградирует незаметно и неотлаживаемо; «среднее по системе» не показывает, какой шаг съедает бюджет.