глоссарий

Распознавание и синтез речи (STT/TTS)

Голос как канал ввода/вывода ИИ-системы: speech-to-text и text-to-speech, бюджет латентности, прерывания (barge-in).

Распознавание речи (Speech-to-Text, STT) превращает звуковой сигнал в текст, синтез речи (Text-to-Speech, TTS) — текст в звук. По отдельности это две внешние модели; вместе они образуют голосовой канал для ИИ-системы, между ними работает тот же агент, что и в текстовом интерфейсе. Голос — это канал ввода, а не самостоятельная «голосовая магия».

Что определяет качество голосового диалога: бюджет латентности (реплика дольше ~1.2–1.8 секунды разваливает разговор и диктует стриминговый STT и частичный TTS), устойчивость к шуму и акцентам на реальном телефонном канале, обработка прерываний (barge-in: пользователь договаривает фразу — бот должен остановиться и переслушать), тайминги пауз (слишком короткая — «перебивает», слишком длинная — «завис»). Это отдельный слой логики, не настройка модели.

Где это работает: голосовые ИИ-боты, входящий сервис, исходящий обзвон, голосовые шаги в корпоративных ИИ-агентах. Голос оправдан там, где телефон — основной канал клиента; в B2B-переписке и IT-поддержке он чаще создаёт фрикцию, чем снимает её.

Все термины