инженерные заметки
Контекст как главный ресурс ИИ-системы
Почему качество ИИ-системы определяется управлением контекстом, а не размером модели, и как этим управлять инженерно.
Коротко для руководителя. В ИИ-системе главный управляемый ресурс — не модель, а контекст: то, что подаётся модели на каждом шаге. Им управляют как бюджетом, потому что от него прямо зависят и качество ответа, и стоимость. Компании, которые относятся к контексту как к ресурсу, получают предсказуемую систему; те, кто «закидывает в модель всё на всякий случай», — растущий счёт и плавающее качество.
Когда ИИ-система ведёт себя плохо, первый импульс — винить модель. Почти всегда дело не в ней, а в том, что и в каком объёме в неё попало. Контекст — это и есть тот ресурс, которым система живёт или захлёбывается.
Главный ресурс ИИ-системы — не модель, а контекст.
Гипотеза: качество и стоимость определяются контекстом, не моделью
Одна и та же модель по точному, минимально достаточному контексту даёт полезный ответ; по раздутому и зашумлённому — уверенную ошибку. Размер модели почти не сдвигает этот результат. Значит, проектировать ИИ-систему — это в первую очередь проектировать управление контекстом, а не выбирать модель.
Окно растёт быстрее, чем умение им пользоваться: вместить можно почти всё, но точность определяется тем, что и как туда подано. Размер окна — не замена инженерии контекста.
Окно контекста выросло на порядки — соблазн «вместить всё» стал техническим. Но вместимость и польза — разные вещи.
Проблема: контекст воспринимают как «добавить ещё текста»
Распространённая модель мышления: качество низкое — добавим в контекст ещё историю, ещё документы, ещё примеры. Контекст растёт, и вместе с ним растёт стоимость (платится за каждый токен) и падает точность (модель смешивает источники, теряет важное среди неважного).
Модель использует длинный контекст неравномерно: то, что попало в середину, теряется. «Больше контекста» без управления подачей снижает точность, а не повышает. Значения иллюстративны, профиль — из исследования.
Модель использует длинный контекст неравномерно: то, что в середине, теряется. «Больше» буквально означает «хуже», если подачей не управлять.
Почему обычные подходы не работают
«Положим весь найденный материал» не работает, потому что релевантное тонет в почти-релевантном, а счёт растёт линейно по длине.
«Возьмём модель с окном побольше» не работает, потому что проблема не во вместимости, а в отборе: модель всё равно использует длинный контекст неравномерно.
«Подложим всю историю диалога» не работает, потому что большая часть истории не нужна текущему шагу, но оплачивается и зашумляет ответ.
Инженерная модель: контекст как бюджетируемый ресурс
Бюджет на шаг. Для каждого шага задаётся потолок: сколько токенов контекста он имеет право использовать. Это заставляет систему отбирать, а не накапливать.
Отбор, а не накопление. В контекст идёт переранжированный минимум, достаточный для ответа, а не «всё, что нашли». Отбор — отдельный инженерный шаг, а не побочный эффект поиска.
Версии и свежесть. У фрагментов контекста есть источник, версия и дата; устаревшее не подаётся, даже если семантически похоже.
Контекст по шагу, а не по системе. Разным шагам нужен разный контекст. Глобальный «общий контекст на всё» — это и есть источник раздувания.
Наблюдаемость контекста. Видно, что именно подавалось на каждом шаге и сколько это стоило. Без этого рост контекста не виден до счёта.
Практический вывод для бизнеса
Контекст — это статья бюджета, и ею управляют до запуска. Если расход растёт быстрее числа запросов, почти всегда тихо растёт длина контекста; это находится по трассировке за часы — если наблюдаемость заложена.
Спросите у подрядчика, есть ли бюджет контекста на шаг и как отбирается то, что подаётся модели. «Кладём всё, модель разберётся» — это и непредсказуемая стоимость, и плавающее качество одновременно.
Не покупайте «модель побольше» как решение качества. Чаще проблема качества — это проблема отбора контекста, и она решается дешевле и надёжнее, чем сменой модели.
Приложить это к вашим процессам — .
Открытые вопросы
Как измерять «достаточность» контекста на ваших задачах без размеченного эталона — задача без зрелого общего решения; мы строим эталон из исторических обращений. Где предел сжатия контекста без потери смысла — открытый компромисс, решаемый замером. Насколько новые длинноконтекстные модели снимают проблему середины — улучшается, но не отменяет необходимость отбора.
Если ваша ИИ-система дорожает быстрее, чем растёт нагрузка, — почти наверняка дело в контексте. — посмотрим, что подаётся модели и где деньги уходят в неуправляемый контекст.