инженерные заметки

Почему ИИ-автоматизация может внезапно стать дорогой

Откуда берётся неконтролируемый рост стоимости ИИ-автоматизации: длина контекста, ретраи, неудачная маршрутизация — и как держать бюджет.

0:00

Коротко для руководителя. Счёт за ИИ-автоматизацию растёт не «весь сразу», а незаметно по шагам — и потом приходит кратно выше прогноза. Парадокс: цена модели обвально падает, а счета взрываются. Причина не в цене токена, а в архитектуре: длина контекста, повторные вызовы, тихие циклы. Контроль закладывается до запуска; «оптимизация по факту счёта» почти всегда означает временное отключение функций.

Сценарий повторяется из проекта в проект. Прототип дешёвый, всем нравится, запускают. Через два месяца счёт в разы выше прогноза, и начинается спор, не отключить ли часть функций до выяснения. Проблема не финансовая, а инженерная.

Токен дешевеет. Привычка лить в контекст всё подряд — нет.

Гипотеза: стоимость растёт по шагам, а не разом

Стоимость ИИ-автоматизации — сумма по шагам процесса. Каждый шаг — это вызовы модели и токены контекста. Рост происходит не одномоментно, а накоплением: чуть длиннее контекст, чуть больше вызовов, чуть больше ретраев — и в сумме кратно дороже прогноза.

данные

Цена вывода моделей падает год к году

9–900×

падение цены вывода в год — в зависимости от задачи

$20 → $0.07

за 1 млн токенов на уровне GPT-3.5 за ~18 мес

Цена за токен обваливается — но это не отменяет необходимости считать стоимость: дешевеет токен, а не привычка подкладывать в контекст всё подряд и вызывать модель лишний раз.

Источник: Stanford HAI, AI Index Report 2025 https://hai.stanford.edu/ai-index/2025-ai-index-report

Цена за токен падает в разы в год — и это усыпляет: «само подешевеет». Само не дешевеет, потому что объём растёт быстрее цены.

Проблема: бюджет планируют по прототипу

В прототипе обращений десятки, контекст короткий, ретраев почти нет. Формула «средняя длина × цена × число запросов» по этим данным занижена, потому что в проде появляется то, чего в прототипе не было: растущий контекст, несколько вызовов модели на один результат, ретраи и тихие циклы.

Почему обычные подходы не работают

«Подождём, модели дешевеют» не работает: дешевеет токен, а не привычка подкладывать в контекст всё подряд; объём растёт быстрее цены.

«Оптимизируем, когда станет дорого» не работает: к этому моменту архитектура зафиксирована, и единственный быстрый рычаг — урезать функции.

«Поставим модель подешевле везде» не работает: на шагах с высокой ценой ошибки слабая модель приносит убытки больше экономии.

данные

Ожидаемая и реальная окупаемость агентного ИИ

171%

средний ожидаемый ROI агентного ИИ по опросам организаций

<1%

руководителей сообщают о значимом ROI (≥20% к прибыли или экономии)

$1.41

средняя отдача на каждый вложенный $1 (экономия + рост выручки)

Ожидания кратно выше реализованного эффекта. Окупаемость считают честно — по конкретному процессу и полной стоимости владения, а не по ожиданию в 171%.

Источник: Deloitte, AI ROI, 2025 https://www.deloitte.com/global/en/issues/generative-ai/ai-roi-the-paradox-of-rising-investment-and-elusive-returns.html

Разрыв ожиданий и реальности во многом отсюда: считали выгоду по прототипу, а стоимость владения выросла незаметно.

Инженерная модель: где растёт стоимость и как держать

Длина контекста. Главный тихий драйвер. Лечится бюджетом контекста на шаг: подаётся переранжированный минимум, а не «всё, что нашли».

Число вызовов на результат. Один видимый ответ — это часто классификация, переформулировка, ответ, проверка. Лечится маршрутизацией модели под шаг: рутина — на дешёвой модели, дорогое решение — на сильной.

Ретраи и тихие циклы. Таймауты, неудачный разбор, зацикливание — это оплаченные токены без результата. Лечится лимитами итераций и ранним выходом с эскалацией.

Шаги без модели. Логику и работу с данными делает код; модель — только там, где нужна. Самый дешёвый токен — невызванный.

Наблюдаемость по шагам. Стоимость собирается по шагам. «Дорого» превращается в «шаг X дорогой из-за Y» — задачу с решением, а не повод урезать вслепую.

Практический вывод для бизнеса

Просите проекцию стоимости на реальный объём, а не цифру из прототипа. Если расход растёт быстрее числа запросов — где-то тихо растёт контекст; это находится по трассировке за часы, если наблюдаемость заложена.

Закладывайте контроль стоимости в архитектуру до запуска. Это несколько дней работы заранее против недель аврала и отключения функций потом — при том же конечном функционале.

Не считайте удешевление моделей стратегией. Это попутный ветер, а не управление бюджетом; управляют архитектурой.

Приложить это к вашим процессам — .

Открытые вопросы

Где предел экономии без потери качества — компромисс по шагам, не общее правило. Как прогнозировать стоимость до пилота — только диапазоном. Как соотносить падение цены токена и рост объёма в долгосрочном бюджете — тренды частично гасят друг друга, точного метода нет.

Если счёт за автоматизацию растёт быстрее нагрузки — это архитектура, и это находится по трассировке. — разложим стоимость по шагам и где она проектируется неверно.