Есть проект, который осуществляет транскрибацию, диаризацию и выделение по слепку голоса говорящего. Необходимо добавить дополнительно выделение эмоционального фона сказанной фразы.<br><br>Пробовал сделать выделение эмоционального фона через aniemore, но там сложности с тем чтобы после каждой фразы проставлять эмоциональный фон, пропускает фразу, хоть они длинной и не меньше 1 сек., или записывает все возможные варианты даже с маленьким весом.<br><br>Что нужно:<br><br>1) Выделять корректно эмоциональный фон корректно по фразам<br>2) Какую модель\и будем использовать? И можно ли их дообучить на своём dataset?<br><br>Пробовал также openSMILE или pyAudioAnalysis(более старые версии моделей), но тоже не получилось.<br>