Создать современный веб-сайт, который позволяет пользователям:
• Вводить текст и генерировать видео с говорящей головой на основе загруженной фотографии
• Выбирать голос для озвучки на русском языке (с разными вариантами)
• Добавлять субтитры (текст) на видео
• Генерировать изображения по ключевым словам (на русском языке) с возможностью накладывать текст
• Иметь удобный и понятный интерфейс на русском языке с адаптацией под мобильные устройства
Основные задачи и функционал
1. Ввод текста и генерация видео с говорящей головой
• Поле для ввода текста (до 500 символов, с поддержкой кириллицы)
• Загрузка фотографии (jpg, png, до 5 Мб)
• Генерация видео с синхронизацией движений губ и озвучкой на русском языке
• Выбор голоса
• Настройка скорости речи и интонации
• Автоматическое добавление субтитров с текстом, читаемым и чётким, с возможностью позиционирования
• Экспорт видео в формате mp4, возможность скачать
2. Генерация изображений по описанию
• Ввод описания/ключевых слов на русском
• Генерация изображения через AI (DALL·E, Stable Diffusion или аналог)
• Возможность наложить текст на изображение
• Предпросмотр и скачивание изображения
3. Интеграция с API
• Использование D-ID или аналогичного сервиса для генерации видео с говорящей головой
• Использование ElevenLabs или другого сервиса для озвучки на русском языке
• Использование AI-сервисов для генерации изображений (DALL·E, Stable Diffusion и др.)
• Обработка ошибок и уведомления пользователя о статусе генерации