Голос и телефония
Голосовой ИИ-агент входящей линии
Голосовой ИИ-агент принимает звонки: распознаёт речь, отвечает по базе знаний, оформляет заявку и переводит на оператора по правилу. С контролем задержки и перехвата.
Голосовая линия — самый требовательный канал для ИИ-агента: человек слышит каждую задержку и каждую неестественную паузу. Голосовой агент входящей линии принимает звонок, понимает запрос, отвечает по базе знаний и оформляет заявку, а сложные звонки переводит на оператора по явному правилу — но всё это работает, только если уложиться в бюджет задержки.
Что он делает
Принимает входящий звонок, потоком распознаёт речь и определяет намерение. Ищет ответ в вашей базе знаний и озвучивает короткую реплику естественным голосом. Если нужно действие — оформляет заявку через интеграцию с CRM или телефонией. Если запрос за пределами компетенции или клиент просит человека — переводит звонок на оператора с готовым контекстом. Каждый шаг проверяемый и заменяемый, а не единый чёрный ящик «телефон-в-модель».
Где проходит граница
В голосе граница проходит по двум линиям. Первая — бюджет задержки: круг «человек договорил → агент начал отвечать» должен укладываться в естественную паузу, иначе разговор разваливается. Поэтому потоковое распознавание, ранний старт синтеза и перехват реплики (barge-in) — не украшения, а каркас. Вторая — точка передачи человеку: двойное непонимание, денежный вопрос, раздражённый клиент или прямая просьба — сигнал к переводу, а не к попытке «дожать» голосом.
Подробнее об инженерии телефонии — на странице голосовых ИИ-ботов; поиск ответа внутри агента — это та же RAG-система, что и в текстовых каналах, только под жёсткий лимит времени на реплику.
Как устроена цепочка
- 01Распознавание речи (STT) · STT
Переводит речь в текст потоком, по мере того как человек говорит, а не после паузы. От качества этого шага зависит всё остальное.
- 02Понимание и ответ по базе · средняя модель
Определяет намерение, ищет ответ в базе знаний и формирует короткую реплику с опорой на источник, без длинных монологов.
- 03Действие или перевод · правило + модель
Оформляет заявку через интеграцию либо по явному правилу переводит звонок на оператора — с озвучкой контекста, не вслепую.
- 04Синтез речи (TTS) · TTS
Озвучивает ответ естественным голосом. Реплика начинает проигрываться раньше, чем дописана целиком, чтобы пауза не тянулась.
Интеграции
+ любой внешний API
Калькулятор стоимости
Оценка по усреднённой ставке за токен (вход+выход). Точная стоимость зависит от длины контекста, числа вызовов и доли ручного контроля — посчитаем по вашему процессу.
связанные кейсы