Перейти к основному содержимому

Типы данных для обучения

Caila поддерживает ряд типов данных, на которых можно обучать и тестировать обучаемые сервисы.

Тип датасетаИспользуется в сервисахПример файла
csv/faqКлассификаторы, FAQСкачать
csv/texts-and-labelsКлассификаторыСкачать
json/anyЛюбые
json/caila-intentsКлассификаторы, FAQСкачать
json/faqКлассификаторы, FAQСкачать
json/linesСервис дообучения LLMСкачать
json/texts-and-labelsКлассификаторыСкачать
json/textsCDQA, loadtestСкачать
json/transformer-fitКлассификаторы
json/tts-dictionaryaimyvoice-customСкачать
plain/textsCDQA, loadtestСкачать
xlsx/faqКлассификаторы, FAQСкачать

В названиях типов вначале указан формат данных, например json или csv; после слеша — тип содержимого датасета.

Форматы данных

ФорматОписаниеРасширение
plainПростой текст без определенного формата.Обычно TXT
jsonТекстовый формат, который хранит простые структуры данных и ассоциативные массивы (объекты).JSON
csvТекстовый формат, где каждое значение отделено запятой или другим разделителем.
Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности.
CSV
xlsxФормат используется в программах для электронных таблиц, например Microsoft Excel.
Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности.
XLS, XLSX

Типы содержимого датасетов

ТипОписание
anyФайл произвольного формата.
Используйте этот тип, если встроенные типы для вас не подходят. Сервис должен самостоятельно проверять, что содержимое датасета корректно.
caila‑intentsФайл с интентами, экспортированными из проекта JAICP. Подробнее об экспорте интентов и структуре данных читайте в документации JAICP.
faqФайл с вопросами и ответами, а также дополнительными полями.
Предназначен для обучения сервиса FAQ, который используется в JAICP. Подробнее о возможных полях читайте в документации JAICP.
linesФайл, в котором каждая строка — объект в формате JSON.
textsФайл, в котором каждая строка — простой текст без определенного формата.
texts‑and‑labelsФайл с текстами и соответствующими им метками.
transformer‑fitФайл внутреннего технического формата.
tts-dictionaryФайл, в котором каждый текст соответствует ожидаемому произношению. Используется для настройки синтеза речи в Aimyvoice.

Автоматическая конвертация

В Caila реализована автоматическая конвертация одного типа содержимого датасета в другой:

  • caila-intentsfaq;
  • caila-intentstexts-and-labels;
  • faqcaila-intents;
  • texts-and-labelstransformer-fit.

Если вы загружаете датасет одного формата, а сервис требует другой, платформа попытается самостоятельно конвертировать ваш датасет. Таким образом, автоматическая конвертация расширяет список сервисов, которые вы можете обучить с помощью вашего датасета.

Тип содержимого может быть сконвертирован несколько раз, например: caila-intentstexts-and-labelstransformer-fit. Помимо конвертации типов содержимого, также поддержана конвертация форматов данных, например csvxlsx.