инженерные заметки
Почему ИИ-автоматизация может внезапно стать дорогой
Откуда берётся неконтролируемый рост стоимости ИИ-автоматизации: длина контекста, ретраи, неудачная маршрутизация — и как держать бюджет.
Коротко для руководителя. Счёт за ИИ-автоматизацию растёт не «весь сразу», а незаметно по шагам — и потом приходит кратно выше прогноза. Парадокс: цена модели обвально падает, а счета взрываются. Причина не в цене токена, а в архитектуре: длина контекста, повторные вызовы, тихие циклы. Контроль закладывается до запуска; «оптимизация по факту счёта» почти всегда означает временное отключение функций.
Сценарий повторяется из проекта в проект. Прототип дешёвый, всем нравится, запускают. Через два месяца счёт в разы выше прогноза, и начинается спор, не отключить ли часть функций до выяснения. Проблема не финансовая, а инженерная.
Токен дешевеет. Привычка лить в контекст всё подряд — нет.
Гипотеза: стоимость растёт по шагам, а не разом
Стоимость ИИ-автоматизации — сумма по шагам процесса. Каждый шаг — это вызовы модели и токены контекста. Рост происходит не одномоментно, а накоплением: чуть длиннее контекст, чуть больше вызовов, чуть больше ретраев — и в сумме кратно дороже прогноза.
Цена за токен обваливается — но это не отменяет необходимости считать стоимость: дешевеет токен, а не привычка подкладывать в контекст всё подряд и вызывать модель лишний раз.
Цена за токен падает в разы в год — и это усыпляет: «само подешевеет». Само не дешевеет, потому что объём растёт быстрее цены.
Проблема: бюджет планируют по прототипу
В прототипе обращений десятки, контекст короткий, ретраев почти нет. Формула «средняя длина × цена × число запросов» по этим данным занижена, потому что в проде появляется то, чего в прототипе не было: растущий контекст, несколько вызовов модели на один результат, ретраи и тихие циклы.
Почему обычные подходы не работают
«Подождём, модели дешевеют» не работает: дешевеет токен, а не привычка подкладывать в контекст всё подряд; объём растёт быстрее цены.
«Оптимизируем, когда станет дорого» не работает: к этому моменту архитектура зафиксирована, и единственный быстрый рычаг — урезать функции.
«Поставим модель подешевле везде» не работает: на шагах с высокой ценой ошибки слабая модель приносит убытки больше экономии.
Ожидания кратно выше реализованного эффекта. Окупаемость считают честно — по конкретному процессу и полной стоимости владения, а не по ожиданию в 171%.
Разрыв ожиданий и реальности во многом отсюда: считали выгоду по прототипу, а стоимость владения выросла незаметно.
Инженерная модель: где растёт стоимость и как держать
Длина контекста. Главный тихий драйвер. Лечится бюджетом контекста на шаг: подаётся переранжированный минимум, а не «всё, что нашли».
Число вызовов на результат. Один видимый ответ — это часто классификация, переформулировка, ответ, проверка. Лечится маршрутизацией модели под шаг: рутина — на дешёвой модели, дорогое решение — на сильной.
Ретраи и тихие циклы. Таймауты, неудачный разбор, зацикливание — это оплаченные токены без результата. Лечится лимитами итераций и ранним выходом с эскалацией.
Шаги без модели. Логику и работу с данными делает код; модель — только там, где нужна. Самый дешёвый токен — невызванный.
Наблюдаемость по шагам. Стоимость собирается по шагам. «Дорого» превращается в «шаг X дорогой из-за Y» — задачу с решением, а не повод урезать вслепую.
Практический вывод для бизнеса
Просите проекцию стоимости на реальный объём, а не цифру из прототипа. Если расход растёт быстрее числа запросов — где-то тихо растёт контекст; это находится по трассировке за часы, если наблюдаемость заложена.
Закладывайте контроль стоимости в архитектуру до запуска. Это несколько дней работы заранее против недель аврала и отключения функций потом — при том же конечном функционале.
Не считайте удешевление моделей стратегией. Это попутный ветер, а не управление бюджетом; управляют архитектурой.
Приложить это к вашим процессам — .
Открытые вопросы
Где предел экономии без потери качества — компромисс по шагам, не общее правило. Как прогнозировать стоимость до пилота — только диапазоном. Как соотносить падение цены токена и рост объёма в долгосрочном бюджете — тренды частично гасят друг друга, точного метода нет.
Если счёт за автоматизацию растёт быстрее нагрузки — это архитектура, и это находится по трассировке. — разложим стоимость по шагам и где она проектируется неверно.