Перейти к основному содержимому

Тип задачи: Распознавание речи

Сервисы типа asr принимают на вход массив байтов и возвращают JSON в определённом формате. Поддерживается режим потокового распознавания.

Системное название: asr

Список сервисов: https://caila.io/catalog?TaskType=asr

ASR — Automatic Speech Recognition. Задача распознавания речи — преобразование аудио-потока в текст.

Типы данных

Predict request

Формат запроса:

{
"audio_base64": "audio data"
}

Predict response

Формат ответа сильно зависит от конкретного сервиса. Базовый интерфейс определяет только обязательные поля, общие и одинаковые для всех сервисов данного типа.

Обязательные поля ответа:

{
"text": "Привет"
}

Кроме одного поля text в ответе будет присутствовать множество данных, специфичных для конкретного сервиса. Информацию об этих данных смотрите на странице сервиса.