Перейти к содержимому
Carbonfay
EN

Голос и телефония

Голосовой ИИ-агент входящей линии

Голосовой ИИ-агент принимает звонки: распознаёт речь, отвечает по базе знаний, оформляет заявку и переводит на оператора по правилу. С контролем задержки и перехвата.

Голосовая линия — самый требовательный канал для ИИ-агента: человек слышит каждую задержку и каждую неестественную паузу. Голосовой агент входящей линии принимает звонок, понимает запрос, отвечает по базе знаний и оформляет заявку, а сложные звонки переводит на оператора по явному правилу — но всё это работает, только если уложиться в бюджет задержки.

Что он делает

Принимает входящий звонок, потоком распознаёт речь и определяет намерение. Ищет ответ в вашей базе знаний и озвучивает короткую реплику естественным голосом. Если нужно действие — оформляет заявку через интеграцию с CRM или телефонией. Если запрос за пределами компетенции или клиент просит человека — переводит звонок на оператора с готовым контекстом. Каждый шаг проверяемый и заменяемый, а не единый чёрный ящик «телефон-в-модель».

Где проходит граница

В голосе граница проходит по двум линиям. Первая — бюджет задержки: круг «человек договорил → агент начал отвечать» должен укладываться в естественную паузу, иначе разговор разваливается. Поэтому потоковое распознавание, ранний старт синтеза и перехват реплики (barge-in) — не украшения, а каркас. Вторая — точка передачи человеку: двойное непонимание, денежный вопрос, раздражённый клиент или прямая просьба — сигнал к переводу, а не к попытке «дожать» голосом.

Подробнее об инженерии телефонии — на странице голосовых ИИ-ботов; поиск ответа внутри агента — это та же RAG-система, что и в текстовых каналах, только под жёсткий лимит времени на реплику.

Как устроена цепочка

  1. 01
    Распознавание речи (STT) · STT

    Переводит речь в текст потоком, по мере того как человек говорит, а не после паузы. От качества этого шага зависит всё остальное.

  2. 02
    Понимание и ответ по базе · средняя модель

    Определяет намерение, ищет ответ в базе знаний и формирует короткую реплику с опорой на источник, без длинных монологов.

  3. 03
    Действие или перевод · правило + модель

    Оформляет заявку через интеграцию либо по явному правилу переводит звонок на оператора — с озвучкой контекста, не вслепую.

  4. 04
    Синтез речи (TTS) · TTS

    Озвучивает ответ естественным голосом. Реплика начинает проигрываться раньше, чем дописана целиком, чтобы пауза не тянулась.

Интеграции

Yandex SpeechKit GigaChat Bitrix24

+ любой внешний API

Калькулятор стоимости

200
4
Токены, ₽/мес
Разработка, ₽
Поддержка, ₽/мес

Оценка по усреднённой ставке за токен (вход+выход). Точная стоимость зависит от длины контекста, числа вызовов и доли ручного контроля — посчитаем по вашему процессу.

связанные кейсы

частые вопросы

Вопросы по делу

Будет ли заметна задержка в разговоре?
Это главный инженерный параметр голосового агента. Мы держим бюджет задержки на полный круг «вы договорили — агент начал отвечать» в пределах естественной паузы. Достигается потоковым распознаванием, ранним стартом синтеза и лёгкими моделями на шагах, где не нужна тяжёлая. Если уложиться в бюджет нельзя — честнее не делать голос, а оставить чат.
Что будет, если перебить агента посередине фразы?
Агент поддерживает перехват (barge-in): когда человек начинает говорить, агент замолкает и слушает, а не дочитывает свою реплику. Без этого разговор ощущается как автоответчик. Перехват — обязательная часть, а не опция.
Когда звонок уходит на живого оператора?
По явному правилу: агент не распознал запрос дважды подряд, тема за пределами базы знаний, клиент раздражён или просит человека, вопрос денежный сверх порога. Перевод идёт с кратким резюме, чтобы оператор не переспрашивал заново.
Откуда агент берёт ответы и куда пишет заявку?
Ответы — из вашей базы знаний через поиск, а не из памяти модели. Заявка оформляется через интеграцию с вашей CRM или телефонией по тому же контракту, что и у операторов: создаёт обращение, фиксирует контакт, ставит задачу.

Следующий шаг

Спроектируем слой автоматизации на ИИ под ваши процессы.

DBCV