Нейросеть для озвучки книг с возможностью выбора голоса

Развернуть в Docker нейросеть, обучаемую на голосе, способную озвучивать текст и предоставлять API-доступ. Реализовать веб-интерфейс для управления моделью, выбора голоса, загрузки данных и контроля обучения. Обеспечить развертывание и запуск системы на платформе. 1. Основные требования Контейнеризация: Развертывание в Docker. Голосовой синтез: Использование современных TTS-моделей (например, VITS, Bark, FastSpeech2, Tacotron2). Выбор голоса: Возможность переключения между разными голосами (предустановленные + обучаемые). API-доступ: REST / GraphQL / WebSocket для интеграции. Веб-интерфейс: Управление обучением, загрузкой текстов, выбором голоса. Обучение на пользовательских данных: Возможность загрузки новых голосов и их адаптации. Развертывание на платформе: Исполнитель должен довести проект до рабочего состояния. Оптимизация: Поддержка GPU для ускорения работы модели. 2. Функционал 2.1 API (REST / GraphQL / WebSocket) Генерация аудиофайлов по тексту. Выбор голоса перед генерацией. Настройки параметров речи (тон, темп, эмоции). Обучение модели на пользовательских данных (загрузка аудиофайлов + текста). Документация по API. 2.2 Веб-интерфейс..................

24.02.2025 в 09:31

Перейти к оригиналу