инженерные заметки

Энтропия контекста и деградация качества ответов

Как накопление шума в контексте снижает качество ответов ИИ-системы и какие инженерные приёмы это сдерживают.

0:00

Коротко для руководителя. Качество ответов ИИ-системы деградирует не скачком, а незаметно — по мере того как в контекст накапливается шум. Это операционный риск, а не баг модели: система продолжает уверенно отвечать, просто всё чаще неточно. Деградацию нельзя «починить обновлением модели» — её предотвращают инженерно, управляя контекстом. Для бизнеса это значит: предсказуемость качества — следствие архитектуры, а не везения.

У ИИ-систем есть неприятное свойство: они редко ломаются заметно. Чаще они медленно «плывут» — ответы становятся всё менее точными, но всё так же уверенными. За этим стоит накопление шума в контексте; назовём это энтропией контекста.

Качество не падает разом — оно тихо плывёт вместе с контекстом.

Гипотеза: шум в контексте растёт со временем

Чем дольше живёт диалог, сессия или процесс, тем больше в контекст попадает нерелевантного: устаревшие куски истории, лишние документы, промежуточные рассуждения. Полезный сигнал разбавляется. Модель по-прежнему отвечает, но отношение «сигнал/шум» падает, и вместе с ним — точность.

Проблема: деградацию не видно

В отличие от падения сервиса, рост энтропии контекста не вызывает ошибки. Нет алерта «качество упало на 12%». Пользователь видит чуть менее точные ответы, списывает на «ИИ иногда ошибается», а система тем временем ушла от рабочего качества. Проблему замечают поздно — по жалобам или по инциденту.

данные

Точность ответа в зависимости от позиции нужного факта в длинном контексте

Модель использует длинный контекст неравномерно: то, что попало в середину, теряется. «Больше контекста» без управления подачей снижает точность, а не повышает. Значения иллюстративны, профиль — из исследования.

Источник: Lost in the Middle: How Language Models Use Long Contexts (Liu et al.), 2023 https://arxiv.org/abs/2307.03172

Механизм нагляден: чем длиннее и зашумлённее контекст, тем хуже модель использует то, что в середине. Накопление контекста буквально работает против точности.

Почему обычные подходы не работают

«Добавим ещё контекста для надёжности» ускоряет деградацию: больше входа — больше шума и сильнее эффект середины.

«Возьмём модель посильнее» не помогает: сильная модель так же не знает, что половина поданного ей контекста нерелевантна.

данные

Окно контекста моделей растёт примерно в 30 раз в год

4K → 1M+

токенов в окне контекста: начало 2023 → 2025

≈30×/год

темп роста длины контекста с середины 2023

Окно растёт быстрее, чем умение им пользоваться: вместить можно почти всё, но точность определяется тем, что и как туда подано. Размер окна — не замена инженерии контекста.

Источник: Epoch AI, анализ длины контекста https://epoch.ai/data-insights/context-windows

Окно растёт на порядки, но это лишь увеличивает, сколько шума можно накопить, — а не способность модели его игнорировать.

«Перезапустим сессию вручную, когда заметим» не работает как стратегия: деградацию как раз и не замечают вовремя, в этом её природа.

Инженерная модель: как сдерживать энтропию

Активная очистка контекста. Контекст не накапливается, а пересобирается под шаг: нерелевантное отбрасывается, а не «остаётся на всякий случай».

Сжатие без потери смысла. Длинная история сворачивается в компактное состояние (что важно, что решено), а не тащится дословно.

Реиндексация по событиям. Источники обновляются при изменении, чтобы в контекст не попадало устаревшее, семантически похожее на актуальное.

Бюджет контекста на шаг. Жёсткий потолок не даёт длине тихо расти — он же ограничивает накопление шума.

Измерение качества на потоке. Для части трафика автоматически оценивается обоснованность ответа. Это превращает невидимую деградацию в наблюдаемую метрику, по которой можно реагировать заранее.

Практический вывод для бизнеса

Деградация качества — управляемый риск, а не свойство ИИ. Спросите, как система измеряет качество в проде и что у неё с бюджетом и очисткой контекста. Если ответа «мы это меряем» нет — качество не контролируется, и узнаете вы об этом по жалобам.

Закладывайте измерение качества с самого начала. Стоимость — несколько дней работы, если сделано заранее; недели разбора по инциденту, если нет. Разница не в технологиях, а в том, считалось ли качество наблюдаемой величиной.

Приложить это к вашим процессам — .

Открытые вопросы

Как измерять «энтропию контекста» напрямую, а не по косвенным признакам, — зрелого стандарта нет. Где граница между полезной памятью и шумом — зависит от процесса и решается замером. Насколько новые модели устойчивее к зашумлённому контексту — улучшение есть, но управление контекстом оно не отменяет.

Если ответы вашей системы «поплыли», но явных ошибок нет — это почти наверняка энтропия контекста. — посмотрим, как измерить качество и где накапливается шум.