На главную

Доработка VoiceAssistant (голосовой помощник)

ВНИМАНИЕ! Проект для Windows<br>1. Требуется внедрить в проект голосового помощника сверточную нейронную сеть для классификации голоса(хозяин/не хозяин) - она уже сделана, сейчас работает в отдельном проекте на Python, её нужно интегрировать в основной проект голосового помощника<br>1.1 В основной класс голосового ассистента(VoiceAssistant) добавить:<br> атрибут для хранения модели классификации<br> метод для проверки является ли пользователь владельцем<br>- в метод on_push_to_talk перед распознаванием речи добавитьвызов метода для проверки является ли пользователь владельцем<br>- если пользователь не является владельцем, то прерываем дальнейшую обработку запроса<br>1.2. Добавление функционала записи голоса:<br>- создать метод для записи голоса пользователя<br>- добавить команду (например "запиши мой голос") в словарь cmds и при получении этой команды будем записывать голос и сохранять его в папку для хранения аудио данных хозяина<br>1.3. Процесс работы:<br>- при запуске программы загрузить предварительно обученную модель, где хранятся обученные модели)<br>- перед обработкой каждого голосового запроса проверяем является ли говорящий владельцем(если нет, то игнорируем запрос)<br>- владелец может в любой момент добавить новые примеры своего голоса через специальную команду в cmds<br>1.4. Обучение модели:<br>- после накопления достаточного количества новых записей владелец может запустить процесс обучения - для этого используется скрипт teacher.py из классификатора<br>1.5. Единственный нюанс, например когда говорит хозяин и на фоне его говорит другой человек <br>Возможно сделать чтобы он слушал только хозяина?<br>Предложения: 1.5.1 перед проверкой голоса владельца можно добавить доп функцию обработки аудио:<br>1.5.1.1 VAD для проверки наличия других голосов<br>1.5.1.2 если обнаружено больше одного, то например выделять самый громкий и его считать за владельца<br>1.5.2 Добавить в обучающий датасет примеров, где голос 'владельца' записан с фоновыми голосами. Либо добавить постобработку аудио для удаления('очистки') этих фоновых голосов<br>2.Добавить многопоточность, чтобы 1 поток отвечал за основное окошко, 2 поток захватывал голос с микрофона, последующие потоки - выполняли команды из словаря cmd и работали с гпт. (Использовать multiprocessing)<br>3. Добавить оффлайн модель гпт русскую для видеокарты объемом видеопамяти до 8ГБ<br>4. Сделать простенький интерфейс, где слева будет консоль, а справа кнопки, отвечающие за смены моделей, а также выполнения команд из словаря cmd<br>5. Собрать exe <br>Ищу ответственного и опытного разработчика Python, кому близка и интересна данная тематика.<br>

НАКРУТКА ПОДПИСЧИКОВ ЮТУБ

10000 человек

Сломался скрипт в гугл таблице

Доброго времени суток. Сломался скрипт, который использует api Wildberries. Ищу специалиста, который может починить скрипт без серьезных изменений. Прикрепил видео и...

Авитолог

Нужен авитолог с подтверждёнными кейсами в тематике: отдых/развлечения/отдых. Пишите сразу же в отклике: 1) ваш кейс желательно по этой тематике 2)...