Есть код, который транскрибирует аудио и проводит алгоритм по спикерской диаризации. Потом результаты диаризации сравниваются со слепком голоса, чтобы выделить кто-есть-кто.<br><br>Дополнительно добавлено выделение эмоционального фона через aniemore, но там сложности с тем чтобы после каждой фразы проставлять эмоциональный фон, пропускает фразу, хоть они длинной и не меньше 1 сек., или записывает все возможные варианты даже с маленьким весом.<br><br>Что нужно:<br><br>1) Выделять корректно эмоциональный фон корректно по фразам<br>2) Какие модели будем использовать? И можно ли их дообучить?<br><br>Как вариант можно использовать openSMILE<span> или pyAudioAnalysis(более старые версии моделей).<br></span><br>