направление
Инженерная доктрина
Принципы, по которым мы проектируем ИИ в проде: модель как примитив, оркестрация, событийность, выбор модели по шагу, наблюдаемость, экономика, контроль человека.
Это не манифест, а инженерные ограничения — то, чему мы следуем, потому что обратное уже ломалось у нас и у других на практике.
Модель — это примитив, а не система
Языковая модель — вычислительный примитив с нечётким контрактом: на похожие входы она может дать разные выходы. Систему проектируют вокруг этой неопределённости — с проверками, ветвлениями и границами, — а не вопреки ей, надеясь, что «модель сама разберётся». Надежда — не инженерное свойство.
Ценность — в оркестрации, а не в вызове модели
Сам вызов модели — самая простая часть. Сложность в том, что вокруг: состояние между шагами, повторы, ветвления, отказы, передача человеку. Система, у которой это есть явно, переживает изменение требований; обёртка вокруг одного вызова — нет.
События, а не опрос
Процессы запускаются событиями. Состояние, идемпотентность и повторы — свойства платформы, а не код, переписанный в каждом процессе по-своему. Это убирает целый класс ошибок (дубликаты, гонки, потерянное состояние), который иначе всплывает в проде и невоспроизводим.
Модель выбирается под шаг
Не существует одной правильной модели «на всё». Дешёвая быстрая модель решает классификацию и черновики; сильная нужна там, где цена ошибки высока. Выбор — функция шага: риск, требуемое качество, допустимая задержка. Глобальная константа «везде сильная модель» — это переплата без выигрыша в качестве там, где оно не требовалось.
Без наблюдаемости система неотлаживаема
Если нельзя восстановить, на каком шаге, на каком контексте и почему принято решение, — деградацию и перерасход замечают по жалобе или по счёту. Наблюдаемость — не логи на всякий случай, а условие того, что систему вообще можно эксплуатировать.
Стоимость — инженерная метрика
Экономику токенов проектируют так же, как задержку и надёжность: бюджеты контекста, гибридная маршрутизация, кэширование, обрыв тихих циклов. Сделанная заранее, она стоит дней; сделанная по факту счёта — недель и обычно временного отключения функциональности.
Человек — в контуре там, где ошибка дорога
Автономия добавляется по необходимости, а не по умолчанию. Где цена ошибки высока — там по явному правилу работает человек, а эскалация — это терминальный обработчик, а не аварийный выход. Это закладывается в архитектуру, а не добавляется после инцидента.
Production-ИИ — это не обёртка над моделью
Обёртка без состояния и контрактов не доживает до второй итерации требований. Это не вопрос масштаба модели — это вопрос архитектуры. Мы строим оркестрацию с самого начала, потому что достроить её в обёртку нельзя.