На главную

Доработка VoiceAssistant (голосовой помощник)

ВНИМАНИЕ! Проект для Windows<br>1. Требуется внедрить в проект голосового помощника сверточную нейронную сеть для классификации голоса(хозяин/не хозяин) - она уже сделана, сейчас работает в отдельном проекте на Python, её нужно интегрировать в основной проект голосового помощника<br>1.1 В основной класс голосового ассистента(VoiceAssistant) добавить:<br> атрибут для хранения модели классификации<br> метод для проверки является ли пользователь владельцем<br>- в метод on_push_to_talk перед распознаванием речи добавитьвызов метода для проверки является ли пользователь владельцем<br>- если пользователь не является владельцем, то прерываем дальнейшую обработку запроса<br>1.2. Добавление функционала записи голоса:<br>- создать метод для записи голоса пользователя<br>- добавить команду (например "запиши мой голос") в словарь cmds и при получении этой команды будем записывать голос и сохранять его в папку для хранения аудио данных хозяина<br>1.3. Процесс работы:<br>- при запуске программы загрузить предварительно обученную модель, где хранятся обученные модели)<br>- перед обработкой каждого голосового запроса проверяем является ли говорящий владельцем(если нет, то игнорируем запрос)<br>- владелец может в любой момент добавить новые примеры своего голоса через специальную команду в cmds<br>1.4. Обучение модели:<br>- после накопления достаточного количества новых записей владелец может запустить процесс обучения - для этого используется скрипт teacher.py из классификатора<br>1.5. Единственный нюанс, например когда говорит хозяин и на фоне его говорит другой человек <br>Возможно сделать чтобы он слушал только хозяина?<br>Предложения: 1.5.1 перед проверкой голоса владельца можно добавить доп функцию обработки аудио:<br>1.5.1.1 VAD для проверки наличия других голосов<br>1.5.1.2 если обнаружено больше одного, то например выделять самый громкий и его считать за владельца<br>1.5.2 Добавить в обучающий датасет примеров, где голос 'владельца' записан с фоновыми голосами. Либо добавить постобработку аудио для удаления('очистки') этих фоновых голосов<br>2.Добавить многопоточность, чтобы 1 поток отвечал за основное окошко, 2 поток захватывал голос с микрофона, последующие потоки - выполняли команды из словаря cmd и работали с гпт. (Использовать multiprocessing)<br>3. Добавить оффлайн модель гпт русскую для видеокарты объемом видеопамяти до 8ГБ<br>4. Сделать простенький интерфейс, где слева будет консоль, а справа кнопки, отвечающие за смены моделей, а также выполнения команд из словаря cmd<br>5. Собрать exe <br>Ищу ответственного и опытного разработчика Python, кому близка и интересна данная тематика.<br>

Лэндинг на Тильде

Необходимо сделать лэндинг на тильде по аналогии с сайтом quantum-a.ru (доступ к аккаунту предоставлю) Текст предоставлю, его нужно будет проверить и...

Оформление автомобиля

Добрый день! Необходимо разработать дизайн оформления автомобиля. На основе дизайна будет проводиться обклейка пленкой. Мы занимаемся арендой строительного оборудования, название компании...

Вставить информацию в готовую презентацию

Нужно внести новые данные в уже имеющуюся презентацию по типу своей игры. Добавить правильный размер, шрифт и анимацию (все будет указано). ...