инженерные заметки

Бот, который проходит все тесты и не продаёт

Почему ИИ-бот с 95% зелёных тестов почти не влияет на продажи: тесты проверяют знание фактов, а не работу с сомнением, удержание диалога и возврат клиента.

Коротко для руководителя. Можно получить ИИ-бота, который проходит почти все тесты и почти не двигает выручку. Это не парадокс: тесты обычно проверяют, знает ли бот факты, а продажу делают совсем другие способности — работа с сомнением, удержание уходящего диалога, возврат клиента к теме. Если эти способности не измеряют, отчёт будет зелёным, а касса — прежней. Хорошая новость: разрыв виден заранее и закрывается до запуска.

Частая картина: бот сдан, тесты зелёные, команда довольна, а через квартал выясняется, что на продажи он почти не повлиял. Стали разбираться — и оказалось, что проверяли не то. Бот отлично знал маршруты, цены и характеристики, но рассыпался ровно там, где начинается продажа.

Можно иметь 95% зелёных тестов и почти не влиять на продажи — если тесты проверяли не то.

Гипотеза: тесты мерили знание, а продажу делает поведение

Продажа в диалоге — это не выдача правильного факта. Это работа с сомневающимся человеком: распознать колебание, удержать внимание, вернуть к решению того, кто отвлёкся, мягко довести до следующего шага. Тесты же почти всегда проверяют фактическую корректность: правильно ли бот ответил на вопрос. Эти две вещи слабо связаны. Бот может быть безупречен по фактам и беспомощен в продаже — и зелёный отчёт этого не покажет, потому что он измеряет не ту способность.

Проблема: зелёный отчёт скрывает коммерческий провал

Расхождение опасно тем, что выглядит как успех. Менеджмент видит высокий процент пройденных тестов и считает задачу закрытой. Бюджет потрачен, проект «сделан», а бизнес-метрика не сдвинулась. Дальше включается худшее: вместо вывода «мы измеряли не то» закрепляется вывод «ИИ у нас не сработал». Один неверно оценённый бот портит отношение ко всему направлению — и следующий, уже правильный проект, защищать приходится против этого осадка.

данные

Ожидаемая и реальная окупаемость агентного ИИ

171%

средний ожидаемый ROI агентного ИИ по опросам организаций

<1%

руководителей сообщают о значимом ROI (≥20% к прибыли или экономии)

$1.41

средняя отдача на каждый вложенный $1 (экономия + рост выручки)

Ожидания кратно выше реализованного эффекта. Окупаемость считают честно — по конкретному процессу и полной стоимости владения, а не по ожиданию в 171%.

Источник: Deloitte, AI ROI, 2025 https://www.deloitte.com/global/en/issues/generative-ai/ai-roi-the-paradox-of-rising-investment-and-elusive-returns.html

Разрыв между ожидаемой и реальной окупаемостью агентного ИИ — ровно про это: эффект считают по ожиданию, а не по тому, что система реально делает с метрикой. Зелёные тесты в этот разрыв укладываются идеально — они подтверждают активность, а не результат.

Почему обычные подходы не работают

«Добавить ещё фактических тестов» не помогает — это уточняет ту способность, которая и так в порядке, и ничего не говорит о продаже. «Спросить бота, как бы он продал» бесполезно: он опишет идеальный сценарий, которого в живом диалоге не будет. «Посмотреть на средние метрики диалога» — длину, число сообщений, тональность — тоже мимо: это красивые числа, которые не следят ни за одним клиентом и не отвечают на вопрос, дошёл ли конкретный человек до покупки. Корень один: измеряют то, что легко измерить, а не то, что делает деньги.

Инженерная модель: проверять способность продавать, а не знать

Чтобы тест отражал продажу, он должен воспроизводить её трудность. Практически это значит проверять три вещи. Первое — работу с сомнением: симулятор клиента возражает, колеблется, сравнивает, уходит «подумать», и мы смотрим, удерживает ли бот диалог или сдаётся. Второе — возврат после ухода с темы: клиент отвлёкся на посторонний вопрос — вернёт ли бот его к решению. Третье — устойчивость цели: после двадцати минут хаоса помнит ли бот, ради чего был разговор. Источник сценариев — реальные диалоги продаж и поддержки, а не синтетика, потому что живые клиенты сомневаются не так, как придумывает разработчик. Это тестирование на способность довести до результата, а не на знание справочника.

данные

Внедрили почти все — ценность извлекают единицы

Адопция почти повсеместна, но измеримый бизнес-эффект — у единиц. Разрыв не в доступе к ИИ, а в том, доведён ли он до управляемого процесса.

Источник: McKinsey, The State of AI 2025 https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

Та же логика на уровне рынка: внедрили генеративный ИИ почти все, а измеримую ценность извлекают единицы. Разница между этими группами — не доступ к моделям, а то, доведён ли бот до способности влиять на исход, а не просто отвечать.

Практический вывод для бизнеса

Мерьте бота по исходу, а не по фактам. Главный вопрос приёмки — не «сколько тестов прошло», а «на сколько он сдвинул конверсию в выделенном сегменте». Если на этот вопрос нет ответа, бот не готов, каким бы зелёным ни был отчёт.

Где это уже сработало. В одном проекте для крупного travel-ритейлера (под NDA) первая версия диалогового ассистента проходила проверки знаний почти идеально и не влияла на продажи. Переписав тесты на работу с сомнением и удержание диалога — на корпусе реальных обращений, — мы нашли, где именно бот «отпускал» клиента, и закрыли эти места. Сдвинулась не оценка теста, а сам разговор.

Чего не делать. Не принимайте бота по фактическим тестам, если задача — продавать. Не оценивайте качество по средним метрикам диалога. И не списывайте «ИИ не сработал» по результату бота, которого измеряли не той линейкой, — почти всегда дело в линейке.

Посмотреть, где ваш бот теряет клиента, — .

Открытые вопросы

Как чисто отделить вклад бота в продажу от остального — нужен выделенный сегмент и честное сравнение, а не общий рост. Где граница между «бот продаёт» и «бот мешает» — там, где он начинает дожимать против сомнения, которое стоило уважить; это решается не моделью, а правилом эскалации к человеку. Кто отвечает за коммерческий результат бота — это владелец процесса продаж, а не команда разработки, и роль эту стоит назначить до запуска.

Если ваш бот проходит тесты, но не двигает продажи, — почти наверняка измеряли знание, а не продажу. — найдём, где диалог теряет клиента, и как это проверить.