инженерные заметки

Контекст как главный ресурс ИИ-системы

Почему качество ИИ-системы определяется управлением контекстом, а не размером модели, и как этим управлять инженерно.

0:00

Коротко для руководителя. В ИИ-системе главный управляемый ресурс — не модель, а контекст: то, что подаётся модели на каждом шаге. Им управляют как бюджетом, потому что от него прямо зависят и качество ответа, и стоимость. Компании, которые относятся к контексту как к ресурсу, получают предсказуемую систему; те, кто «закидывает в модель всё на всякий случай», — растущий счёт и плавающее качество.

Когда ИИ-система ведёт себя плохо, первый импульс — винить модель. Почти всегда дело не в ней, а в том, что и в каком объёме в неё попало. Контекст — это и есть тот ресурс, которым система живёт или захлёбывается.

Главный ресурс ИИ-системы — не модель, а контекст.

Гипотеза: качество и стоимость определяются контекстом, не моделью

Одна и та же модель по точному, минимально достаточному контексту даёт полезный ответ; по раздутому и зашумлённому — уверенную ошибку. Размер модели почти не сдвигает этот результат. Значит, проектировать ИИ-систему — это в первую очередь проектировать управление контекстом, а не выбирать модель.

данные

Окно контекста моделей растёт примерно в 30 раз в год

4K → 1M+

токенов в окне контекста: начало 2023 → 2025

≈30×/год

темп роста длины контекста с середины 2023

Окно растёт быстрее, чем умение им пользоваться: вместить можно почти всё, но точность определяется тем, что и как туда подано. Размер окна — не замена инженерии контекста.

Источник: Epoch AI, анализ длины контекста https://epoch.ai/data-insights/context-windows

Окно контекста выросло на порядки — соблазн «вместить всё» стал техническим. Но вместимость и польза — разные вещи.

Проблема: контекст воспринимают как «добавить ещё текста»

Распространённая модель мышления: качество низкое — добавим в контекст ещё историю, ещё документы, ещё примеры. Контекст растёт, и вместе с ним растёт стоимость (платится за каждый токен) и падает точность (модель смешивает источники, теряет важное среди неважного).

данные

Точность ответа в зависимости от позиции нужного факта в длинном контексте

Модель использует длинный контекст неравномерно: то, что попало в середину, теряется. «Больше контекста» без управления подачей снижает точность, а не повышает. Значения иллюстративны, профиль — из исследования.

Источник: Lost in the Middle: How Language Models Use Long Contexts (Liu et al.), 2023 https://arxiv.org/abs/2307.03172

Модель использует длинный контекст неравномерно: то, что в середине, теряется. «Больше» буквально означает «хуже», если подачей не управлять.

Почему обычные подходы не работают

«Положим весь найденный материал» не работает, потому что релевантное тонет в почти-релевантном, а счёт растёт линейно по длине.

«Возьмём модель с окном побольше» не работает, потому что проблема не во вместимости, а в отборе: модель всё равно использует длинный контекст неравномерно.

«Подложим всю историю диалога» не работает, потому что большая часть истории не нужна текущему шагу, но оплачивается и зашумляет ответ.

Инженерная модель: контекст как бюджетируемый ресурс

Бюджет на шаг. Для каждого шага задаётся потолок: сколько токенов контекста он имеет право использовать. Это заставляет систему отбирать, а не накапливать.

Отбор, а не накопление. В контекст идёт переранжированный минимум, достаточный для ответа, а не «всё, что нашли». Отбор — отдельный инженерный шаг, а не побочный эффект поиска.

Версии и свежесть. У фрагментов контекста есть источник, версия и дата; устаревшее не подаётся, даже если семантически похоже.

Контекст по шагу, а не по системе. Разным шагам нужен разный контекст. Глобальный «общий контекст на всё» — это и есть источник раздувания.

Наблюдаемость контекста. Видно, что именно подавалось на каждом шаге и сколько это стоило. Без этого рост контекста не виден до счёта.

Практический вывод для бизнеса

Контекст — это статья бюджета, и ею управляют до запуска. Если расход растёт быстрее числа запросов, почти всегда тихо растёт длина контекста; это находится по трассировке за часы — если наблюдаемость заложена.

Спросите у подрядчика, есть ли бюджет контекста на шаг и как отбирается то, что подаётся модели. «Кладём всё, модель разберётся» — это и непредсказуемая стоимость, и плавающее качество одновременно.

Не покупайте «модель побольше» как решение качества. Чаще проблема качества — это проблема отбора контекста, и она решается дешевле и надёжнее, чем сменой модели.

Приложить это к вашим процессам — .

Открытые вопросы

Как измерять «достаточность» контекста на ваших задачах без размеченного эталона — задача без зрелого общего решения; мы строим эталон из исторических обращений. Где предел сжатия контекста без потери смысла — открытый компромисс, решаемый замером. Насколько новые длинноконтекстные модели снимают проблему середины — улучшается, но не отменяет необходимость отбора.

Если ваша ИИ-система дорожает быстрее, чем растёт нагрузка, — почти наверняка дело в контексте. — посмотрим, что подаётся модели и где деньги уходят в неуправляемый контекст.