Выделение эмоционального фона из аудио диалога - не из текста(Python)

Есть проект, который осуществляет транскрибацию, диаризацию и выделение по слепку голоса говорящего. Необходимо добавить дополнительно выделение эмоционального фона сказанной фразы. Пробовал сделать выделение эмоционального фона через aniemore, но там сложности с тем чтобы после каждой фразы проставлять эмоциональный фон, пропускает фразу, хоть они длинной и не меньше 1 сек., или записывает все возможные варианты даже с маленьким весом. Что нужно: 1) Выделять корректно эмоциональный фон корректно по фразам 2) Какую модель\и будем использовать? И можно ли их дообучить на своём dataset? Пробовал также openSMILE или pyAudioAnalysis(более старые версии моделей), но тоже не получилось.

17.12.2024 в 14:47

Перейти к оригиналу

Выделение эмоционального фона из аудио диалога - не из текста(Python)

Сделать ребрендинг сайта

Правки в дизайн макет бирки для одежды

Интеграция ИИ-бота в телеграмме с 1С