Разработка двух версий скрипта для агента на Google Meet

### Промпт: Разработка двух версий скрипта для агента на Google MeetОбщее описание задачи: Необходимо разработать два варианта скрипта для создания агента, который будет работать на платформе Google Meet (или аналогичной системе видеоконференций). Обе версии предназначены для анализа встреч и взаимодействия с участниками, но различаются по уровню автоматизации и функциональности. Первая версия — базовая, с использованием нейросети ChatGPT для анализа и вывода ответов в консоль. Вторая версия — полностью автоматизированный агент с имитацией присутствия человека (школьника), копированием голоса, лица, стиля общения и возможностью демонстрации объектов через камеру по запросу.Текущая дата: 13 марта 2025 года. Требование: Использовать актуальные технологии и учитывать современные возможности ИИ и автоматизации.---#### Версия 1: Базовый анализирующий агент с ChatGPTНазначение: Скрипт создаёт агента, который подключается к встрече на Google Meet, анализирует происходящее в реальном времени (участников, чат, презентацию, речь) и использует нейросеть ChatGPT для обнаружения вопросов и генерации ответов. Ответы выводятся исключительно в консоль, без прямого взаимодействия с участниками.Функциональные требования: 1. Анализ участников встречи: - Скрипт извлекает список участников из интерфейса Google Meet (имена, статус микрофона и камеры). - Отслеживает активность участников (кто говорит или пишет в чате). - Данные об участниках сохраняются в лог для контекста. 2. Анализ чата: - Считывает сообщения в чате в реальном времени. - ChatGPT анализирует текст и определяет, содержит ли сообщение вопрос (например, "Что такое…?", "Как работает…?" или фразы с вопросительным знаком). - При обнаружении вопроса генерирует ответ и выводит его в консоль. 3. Анализ презентации: - Если используется функция "Поделиться экраном", скрипт захватывает изображение с экрана. - Применяет OCR (распознавание текста) для извлечения текста со слайдов. - ChatGPT проверяет текст на наличие вопросов или заданий (например, "Ответьте: …", "Что это значит?"). - Ответы на вопросы из презентации выводятся в консоль. 4. Анализ речи: - Использует Speech-to-Text для преобразования устной речи участников в текст. - ChatGPT анализирует текст на наличие вопросов (например, "Кто знает…?", "Почему так?"). - Ответы на голосовые вопросы выводятся в консоль. 5. Формат вывода в консоль: - Для каждого вопроса указывается источник (чат, речь, презентация), текст вопроса и сгенерированный ChatGPT ответ. - Пример: ``` Вопрос: "Что такое API?" Ответ: "API (Application Programming Interface) — это программный интерфейс, который позволяет разным приложениям взаимодействовать друг с другом, обмениваясь данными и функциями." Вопрос: "Как подключиться к серверу?" Ответ: "Для подключения к серверу нужно использовать протокол, например SSH, указав IP-адрес и порт, а также аутентификационные данные (логин и пароль или ключ)." Вопрос: "Какой язык программирования самый популярный?" Ответ: "На март 2025 года Python остаётся одним из самых популярных языков программирования благодаря своей универсальности и простоте." ```Технические требования: - Язык программирования: Python (или JavaScript для работы в браузере). - Библиотеки: - <code>openai</code> — для интеграции с API ChatGPT. - <code>speech_recognition</code> — для распознавания речи. - <code>pytesseract</code> — для OCR анализа презентаций. - <code>selenium</code> или <code>puppeteer</code> — для управления браузером и взаимодействия с Google Meet. - API: Ключ доступа к OpenAI для работы с ChatGPT. - Интерфейс: Вывод данных только в консоль (терминал или консоль разработчика браузера). - Ограничения: Агент не взаимодействует с участниками (не пишет в чат, не говорит). Ожидаемый результат: Агент пассивно анализирует встречу и предоставляет ответы на все обнаруженные вопросы в консоли, обеспечивая пользователя полной информацией о происходящем.---#### Версия 2: Полностью автоматизированный агент с имитацией школьникаНазначение: Скрипт создаёт продвинутого агента, который полностью имитирует присутствие человека (школьника) на встрече Google Meet. Агент выполняет все функции первой версии (анализ и генерация ответов), а также активно участвует во встрече: копирует голос и лицо заданного человека, поднимает руку, отвечает голосом, ведёт диалог, соответствует стилю школьника и демонстрирует объекты через камеру по запросу участников.Функциональные требования: 1. Все функции первой версии: - Анализ участников, чата, презентации и речи с использованием ChatGPT. - Обнаружение вопросов и генерация ответов с выводом в консоль. 2. Имитация присутствия: - Копирование голоса: - Пользователь загружает аудиофайл (5-10 минут речи) для создания голосовой модели с помощью технологий синтеза (например, ElevenLabs). - Агент использует синтезированный голос для ответов и диалогов через микрофон Google Meet. - Копирование лица: - Пользователь загружает фото или видео человека. - Скрипт генерирует видеопоток с лицом этого человека в реальном времени с помощью Deepfake (например, DeepFaceLab), синхронизируя движения губ с речью. - Камера агента показывает синтезированное лицо. - Периоды активности камеры: - Камера работает постоянно или включается с заданными интервалами (например, каждые 10 минут на 2 минуты) для имитации естественного поведения. 3. Интерактивное поведение: - Поднятие руки: - При обнаружении вопроса агент автоматически поднимает руку через интерфейс Google Meet. - После получения слова отвечает синтезированным голосом. - Ответы и диалог: - ChatGPT генерирует ответы в стиле школьника (простая лексика, сленг, неформальный тон, если указано). - Агент поддерживает диалог: отвечает на уточнения, задаёт встречные вопросы (например, "А можно подробнее?"), комментирует (например, "Круто, не знал!"). - Копирование стиля общения: - Пользователь может загрузить примеры текста (например, сообщения из мессенджера). - ChatGPT адаптирует ответы под этот стиль (фразы, манера, интонация). 4. Соответствие образу школьника: - Ответы упрощены до уровня школьных знаний (без сложных терминов, если не требуется). - Поведение: паузы перед ответами, лёгкая неуверенность ("Эээ, ну…"), фразы вроде "Я думаю, это так". - Внешность и голос соответствуют подростку (на основе загруженных данных). 5. Демонстрация через камеру по запросу: - Распознавание запроса: - Агент отслеживает чат и речь на наличие фраз вроде "Покажи свою тетрадь", "Покажи, что на столе", "Покажи, как делаешь". - ChatGPT определяет, что именно нужно показать. - Генерация или использование контента: - Используются заранее загруженные материалы (изображения/видео тетрадей, столов и т.д.) или генерируются новые с помощью ИИ (например, Stable Diffusion для статичных объектов, Deepfake для действий). - Примеры: тетрадь с записями, стол с учебниками, рука, рисующая на листе. - Процесс демонстрации: - Камера переключается с лица на синтезированный контент. - Агент комментирует голосом: "Вот моя тетрадь, ща покажу" или "Смотрите, это мой стол". - После показа камера возвращается к лицу. - Пример сценария: - Участник: "Покажи, как рисуешь". - Агент: 1. Говорит: "Ща, секунду, покажу!" 2. Камера показывает синтезированное видео руки, рисующей круг. 3. Говорит: "Вот, типа так рисую, нормально?" 6. Вывод в консоль: - Все вопросы, ответы и действия (включая демонстрации) фиксируются в консоли. - Пример: ``` Запрос: "Покажи свою тетрадь" Действие: Показана синтезированная тетрадь с записями Ответ: "Вот моя тетрадь, я тут формулы записал." ```- Оборудование: Мощный процессор и GPU для обработки видео/изображений в реальном времени. - Дополнительно: Папка с материалами (голос, лицо, примеры объектов). Ожидаемый результат: Агент полностью имитирует школьника: отвечает на вопросы голосом, участвует в диалоге, демонстрирует объекты через камеру и ведёт себя естественно, сохраняя при этом контроль через консоль.---Примечания для разработчика: - Обеспечить модульность кода для легкого добавления функций.

13.03.2025 в 13:48

Перейти к оригиналу

Разработка двух версий скрипта для агента на Google Meet

Здравствуйте Владимир! Коммерческое предложение по сотрудничеству

Выполнить полную локализацию документации EN>RU (Бюджет: 100000 ₽, для всех)

Разработка двух версий скрипта для агента на Google Meet

Здравствуйте Владимир! Коммерческое предложение по сотрудничеству

Выполнить полную локализацию документации EN&gt;RU (Бюджет: 100000 ₽, для всех)

Выполнить полную локализацию документации EN>RU (Бюджет: 100000 ₽, для всех)