Типы данных для обучения
Caila поддерживает ряд типов данных, на которых можно обучать и тестировать обучаемые сервисы.
| Тип датасета | Используется в сервисах | Пример файла | 
|---|---|---|
| csv/faq | Классификаторы, FAQ | Скачать | 
| csv/texts-and-labels | Классификаторы | Скачать | 
| json/any | Любые | — | 
| json/caila-intents | Классификаторы, FAQ | Скачать | 
| json/faq | Классификаторы, FAQ | Скачать | 
| json/lines | Сервис дообучения LLM | Скачать | 
| json/texts-and-labels | Классификаторы | Скачать | 
| json/texts | CDQA, loadtest | Скачать | 
| json/transformer-fit | Классификаторы | — | 
| json/tts-dictionary | aimyvoice-custom | Скачать | 
| plain/texts | CDQA, loadtest | Скачать | 
| xlsx/faq | Классификаторы, FAQ | Скачать | 
В названиях типов вначале указан формат данных, например json или csv; после слеша — тип содержимого датасета.
Форматы данных
| Формат | Описание | Расширение | 
|---|---|---|
| plain | Простой текст без определенного формата. | Обычно TXT | 
| json | Текстовый формат, который хранит простые структуры данных и ассоциативные массивы (объекты). | JSON | 
| csv | Текстовый формат, где каждое значение отделено запятой или другим разделителем. Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности. | CSV | 
| xlsx | Формат используется в программах для электронных таблиц, например Microsoft Excel. Первый столбец обычно содержит названия полей данных сущности. Каждая строка представляет данные одной сущности. | XLS, XLSX | 
Типы содержимого датасетов
| Тип | Описание | 
|---|---|
| any | Файл произвольного формата. Используйте этот тип, если встроенные типы для вас не подходят. Сервис должен самостоятельно проверять, что содержимое датасета корректно. | 
| caila‑intents | Файл с интентами, экспортированными из проекта JAICP. Подробнее об экспорте интентов и структуре данных читайте в документации JAICP. | 
| faq | Файл с вопросами и ответами, а также дополнительными полями. Предназначен для обучения сервиса FAQ, который используется в JAICP. Подробнее о возможных полях читайте в документации JAICP. | 
| lines | Файл, в котором каждая строка — объект в формате JSON. | 
| texts | Файл, в котором каждая строка — простой текст без определенного формата. | 
| texts‑and‑labels | Файл с текстами и соответствующими им метками. | 
| transformer‑fit | Файл внутреннего технического формата. | 
| tts-dictionary | Файл, в котором каждый текст соответствует ожидаемому произношению. Используется для настройки синтеза речи в Aimyvoice. | 
Автоматическая конвертация
В Caila реализована автоматическая конвертация одного типа содержимого датасета в другой:
- caila-intents→- faq;
- caila-intents→- texts-and-labels;
- faq→- caila-intents;
- texts-and-labels→- transformer-fit.
Если вы загружаете датасет одного формата, а сервис требует другой, платформа попытается самостоятельно конвертировать ваш датасет. Таким образом, автоматическая конвертация р асширяет список сервисов, которые вы можете обучить с помощью вашего датасета.
Тип содержимого может быть сконвертирован несколько раз, например: caila-intents → texts-and-labels → transformer-fit.
Помимо конвертации типов содержимого, также поддержана конвертация форматов данных, например csv → xlsx.