инженерные заметки
Бот, который проходит все тесты и не продаёт
Почему ИИ-бот с 95% зелёных тестов почти не влияет на продажи: тесты проверяют знание фактов, а не работу с сомнением, удержание диалога и возврат клиента.
Коротко для руководителя. Можно получить ИИ-бота, который проходит почти все тесты и почти не двигает выручку. Это не парадокс: тесты обычно проверяют, знает ли бот факты, а продажу делают совсем другие способности — работа с сомнением, удержание уходящего диалога, возврат клиента к теме. Если эти способности не измеряют, отчёт будет зелёным, а касса — прежней. Хорошая новость: разрыв виден заранее и закрывается до запуска.
Частая картина: бот сдан, тесты зелёные, команда довольна, а через квартал выясняется, что на продажи он почти не повлиял. Стали разбираться — и оказалось, что проверяли не то. Бот отлично знал маршруты, цены и характеристики, но рассыпался ровно там, где начинается продажа.
Можно иметь 95% зелёных тестов и почти не влиять на продажи — если тесты проверяли не то.
Гипотеза: тесты мерили знание, а продажу делает поведение
Продажа в диалоге — это не выдача правильного факта. Это работа с сомневающимся человеком: распознать колебание, удержать внимание, вернуть к решению того, кто отвлёкся, мягко довести до следующего шага. Тесты же почти всегда проверяют фактическую корректность: правильно ли бот ответил на вопрос. Эти две вещи слабо связаны. Бот может быть безупречен по фактам и беспомощен в продаже — и зелёный отчёт этого не покажет, потому что он измеряет не ту способность.
Проблема: зелёный отчёт скрывает коммерческий провал
Расхождение опасно тем, что выглядит как успех. Менеджмент видит высокий процент пройденных тестов и считает задачу закрытой. Бюджет потрачен, проект «сделан», а бизнес-метрика не сдвинулась. Дальше включается худшее: вместо вывода «мы измеряли не то» закрепляется вывод «ИИ у нас не сработал». Один неверно оценённый бот портит отношение ко всему направлению — и следующий, уже правильный проект, защищать приходится против этого осадка.
Ожидания кратно выше реализованного эффекта. Окупаемость считают честно — по конкретному процессу и полной стоимости владения, а не по ожиданию в 171%.
Разрыв между ожидаемой и реальной окупаемостью агентного ИИ — ровно про это: эффект считают по ожиданию, а не по тому, что система реально делает с метрикой. Зелёные тесты в этот разрыв укладываются идеально — они подтверждают активность, а не результат.
Почему обычные подходы не работают
«Добавить ещё фактических тестов» не помогает — это уточняет ту способность, которая и так в порядке, и ничего не говорит о продаже. «Спросить бота, как бы он продал» бесполезно: он опишет идеальный сценарий, которого в живом диалоге не будет. «Посмотреть на средние метрики диалога» — длину, число сообщений, тональность — тоже мимо: это красивые числа, которые не следят ни за одним клиентом и не отвечают на вопрос, дошёл ли конкретный человек до покупки. Корень один: измеряют то, что легко измерить, а не то, что делает деньги.
Инженерная модель: проверять способность продавать, а не знать
Чтобы тест отражал продажу, он должен воспроизводить её трудность. Практически это значит проверять три вещи. Первое — работу с сомнением: симулятор клиента возражает, колеблется, сравнивает, уходит «подумать», и мы смотрим, удерживает ли бот диалог или сдаётся. Второе — возврат после ухода с темы: клиент отвлёкся на посторонний вопрос — вернёт ли бот его к решению. Третье — устойчивость цели: после двадцати минут хаоса помнит ли бот, ради чего был разговор. Источник сценариев — реальные диалоги продаж и поддержки, а не синтетика, потому что живые клиенты сомневаются не так, как придумывает разработчик. Это тестирование на способность довести до результата, а не на знание справочника.
Адопция почти повсеместна, но измеримый бизнес-эффект — у единиц. Разрыв не в доступе к ИИ, а в том, доведён ли он до управляемого процесса.
Та же логика на уровне рынка: внедрили генеративный ИИ почти все, а измеримую ценность извлекают единицы. Разница между этими группами — не доступ к моделям, а то, доведён ли бот до способности влиять на исход, а не просто отвечать.
Практический вывод для бизнеса
Мерьте бота по исходу, а не по фактам. Главный вопрос приёмки — не «сколько тестов прошло», а «на сколько он сдвинул конверсию в выделенном сегменте». Если на этот вопрос нет ответа, бот не готов, каким бы зелёным ни был отчёт.
Где это уже сработало. В одном проекте для крупного travel-ритейлера (под NDA) первая версия диалогового ассистента проходила проверки знаний почти идеально и не влияла на продажи. Переписав тесты на работу с сомнением и удержание диалога — на корпусе реальных обращений, — мы нашли, где именно бот «отпускал» клиента, и закрыли эти места. Сдвинулась не оценка теста, а сам разговор.
Чего не делать. Не принимайте бота по фактическим тестам, если задача — продавать. Не оценивайте качество по средним метрикам диалога. И не списывайте «ИИ не сработал» по результату бота, которого измеряли не той линейкой, — почти всегда дело в линейке.
Посмотреть, где ваш бот теряет клиента, — .
Открытые вопросы
Как чисто отделить вклад бота в продажу от остального — нужен выделенный сегмент и честное сравнение, а не общий рост. Где граница между «бот продаёт» и «бот мешает» — там, где он начинает дожимать против сомнения, которое стоило уважить; это решается не моделью, а правилом эскалации к человеку. Кто отвечает за коммерческий результат бота — это владелец процесса продаж, а не команда разработки, и роль эту стоит назначить до запуска.
Если ваш бот проходит тесты, но не двигает продажи, — почти наверняка измеряли знание, а не продажу. — найдём, где диалог теряет клиента, и как это проверить.