<p>### Промпт: Разработка двух версий скрипта для агента на Google Meet</p><p><b>Общее описание задачи:</b> </p><p>Необходимо разработать два варианта скрипта для создания агента, который будет работать на платформе Google Meet (или аналогичной системе видеоконференций). Обе версии предназначены для анализа встреч и взаимодействия с участниками, но различаются по уровню автоматизации и функциональности. Первая версия — базовая, с использованием нейросети ChatGPT для анализа и вывода ответов в консоль. Вторая версия — полностью автоматизированный агент с имитацией присутствия человека (школьника), копированием голоса, лица, стиля общения и возможностью демонстрации объектов через камеру по запросу.</p><p><b>Текущая дата:</b> 13 марта 2025 года. </p><p><b>Требование:</b> Использовать актуальные технологии и учитывать современные возможности ИИ и автоматизации.</p><p>---</p><p>#### Версия 1: Базовый анализирующий агент с ChatGPT</p><p><b>Назначение:</b> </p><p>Скрипт создаёт агента, который подключается к встрече на Google Meet, анализирует происходящее в реальном времени (участников, чат, презентацию, речь) и использует нейросеть ChatGPT для обнаружения вопросов и генерации ответов. Ответы выводятся исключительно в консоль, без прямого взаимодействия с участниками.</p><p><b>Функциональные требования:</b> </p><p>1. <b>Анализ участников встречи:</b> </p><p> - Скрипт извлекает список участников из интерфейса Google Meet (имена, статус микрофона и камеры). </p><p> - Отслеживает активность участников (кто говорит или пишет в чате). </p><p> - Данные об участниках сохраняются в лог для контекста. </p><p>2. <b>Анализ чата:</b> </p><p> - Считывает сообщения в чате в реальном времени. </p><p> - ChatGPT анализирует текст и определяет, содержит ли сообщение вопрос (например, "Что такое…?", "Как работает…?" или фразы с вопросительным знаком). </p><p> - При обнаружении вопроса генерирует ответ и выводит его в консоль. </p><p>3. <b>Анализ презентации:</b> </p><p> - Если используется функция "Поделиться экраном", скрипт захватывает изображение с экрана. </p><p> - Применяет OCR (распознавание текста) для извлечения текста со слайдов. </p><p> - ChatGPT проверяет текст на наличие вопросов или заданий (например, "Ответьте: …", "Что это значит?"). </p><p> - Ответы на вопросы из презентации выводятся в консоль. </p><p>4. <b>Анализ речи:</b> </p><p> - Использует Speech-to-Text для преобразования устной речи участников в текст. </p><p> - ChatGPT анализирует текст на наличие вопросов (например, "Кто знает…?", "Почему так?"). </p><p> - Ответы на голосовые вопросы выводятся в консоль. </p><p>5. <b>Формат вывода в консоль:</b> </p><p> - Для каждого вопроса указывается источник (чат, речь, презентация), текст вопроса и сгенерированный ChatGPT ответ. </p><p> - Пример: </p><p> ```</p><p> Вопрос: "Что такое API?" </p><p> Ответ: "API (Application Programming Interface) — это программный интерфейс, который позволяет разным приложениям взаимодействовать друг с другом, обмениваясь данными и функциями." </p><p> Вопрос: "Как подключиться к серверу?" </p><p> Ответ: "Для подключения к серверу нужно использовать протокол, например SSH, указав IP-адрес и порт, а также аутентификационные данные (логин и пароль или ключ)." </p><p> Вопрос: "Какой язык программирования самый популярный?" </p><p> Ответ: "На март 2025 года Python остаётся одним из самых популярных языков программирования благодаря своей универсальности и простоте." </p><p> ```</p><p><b>Технические требования:</b> </p><p>- <b>Язык программирования:</b> Python (или JavaScript для работы в браузере). </p><p>- <b>Библиотеки:</b> </p><p> - <code>openai</code> — для интеграции с API ChatGPT. </p><p> - <code>speech_recognition</code> — для распознавания речи. </p><p> - <code>pytesseract</code> — для OCR анализа презентаций. </p><p> - <code>selenium</code> или <code>puppeteer</code> — для управления браузером и взаимодействия с Google Meet. </p><p>- <b>API:</b> Ключ доступа к OpenAI для работы с ChatGPT. </p><p>- <b>Интерфейс:</b> Вывод данных только в консоль (терминал или консоль разработчика браузера). </p><p>- <b>Ограничения:</b> Агент не взаимодействует с участниками (не пишет в чат, не говорит). </p><p><b>Ожидаемый результат:</b> </p><p>Агент пассивно анализирует встречу и предоставляет ответы на все обнаруженные вопросы в консоли, обеспечивая пользователя полной информацией о происходящем.</p><p>---</p><p>#### Версия 2: Полностью автоматизированный агент с имитацией школьника</p><p><b>Назначение:</b> </p><p>Скрипт создаёт продвинутого агента, который полностью имитирует присутствие человека (школьника) на встрече Google Meet. Агент выполняет все функции первой версии (анализ и генерация ответов), а также активно участвует во встрече: копирует голос и лицо заданного человека, поднимает руку, отвечает голосом, ведёт диалог, соответствует стилю школьника и демонстрирует объекты через камеру по запросу участников.</p><p><b>Функциональные требования:</b> </p><p>1. <b>Все функции первой версии:</b> </p><p> - Анализ участников, чата, презентации и речи с использованием ChatGPT. </p><p> - Обнаружение вопросов и генерация ответов с выводом в консоль. </p><p>2. <b>Имитация присутствия:</b> </p><p> - <b>Копирование голоса:</b> </p><p> - Пользователь загружает аудиофайл (5-10 минут речи) для создания голосовой модели с помощью технологий синтеза (например, ElevenLabs). </p><p> - Агент использует синтезированный голос для ответов и диалогов через микрофон Google Meet. </p><p> - <b>Копирование лица:</b> </p><p> - Пользователь загружает фото или видео человека. </p><p> - Скрипт генерирует видеопоток с лицом этого человека в реальном времени с помощью Deepfake (например, DeepFaceLab), синхронизируя движения губ с речью. </p><p> - Камера агента показывает синтезированное лицо. </p><p> - <b>Периоды активности камеры:</b> </p><p> - Камера работает постоянно или включается с заданными интервалами (например, каждые 10 минут на 2 минуты) для имитации естественного поведения. </p><p>3. <b>Интерактивное поведение:</b> </p><p> - <b>Поднятие руки:</b> </p><p> - При обнаружении вопроса агент автоматически поднимает руку через интерфейс Google Meet. </p><p> - После получения слова отвечает синтезированным голосом. </p><p> - <b>Ответы и диалог:</b> </p><p> - ChatGPT генерирует ответы в стиле школьника (простая лексика, сленг, неформальный тон, если указано). </p><p> - Агент поддерживает диалог: отвечает на уточнения, задаёт встречные вопросы (например, "А можно подробнее?"), комментирует (например, "Круто, не знал!"). </p><p> - <b>Копирование стиля общения:</b> </p><p> - Пользователь может загрузить примеры текста (например, сообщения из мессенджера). </p><p> - ChatGPT адаптирует ответы под этот стиль (фразы, манера, интонация). </p><p>4. <b>Соответствие образу школьника:</b> </p><p> - Ответы упрощены до уровня школьных знаний (без сложных терминов, если не требуется). </p><p> - Поведение: паузы перед ответами, лёгкая неуверенность ("Эээ, ну…"), фразы вроде "Я думаю, это так". </p><p> - Внешность и голос соответствуют подростку (на основе загруженных данных). </p><p>5. <b>Демонстрация через камеру по запросу:</b> </p><p> - <b>Распознавание запроса:</b> </p><p> - Агент отслеживает чат и речь на наличие фраз вроде "Покажи свою тетрадь", "Покажи, что на столе", "Покажи, как делаешь". </p><p> - ChatGPT определяет, что именно нужно показать. </p><p> - <b>Генерация или использование контента:</b> </p><p> - Используются заранее загруженные материалы (изображения/видео тетрадей, столов и т.д.) или генерируются новые с помощью ИИ (например, Stable Diffusion для статичных объектов, Deepfake для действий). </p><p> - Примеры: тетрадь с записями, стол с учебниками, рука, рисующая на листе. </p><p> - <b>Процесс демонстрации:</b> </p><p> - Камера переключается с лица на синтезированный контент. </p><p> - Агент комментирует голосом: "Вот моя тетрадь, ща покажу" или "Смотрите, это мой стол". </p><p> - После показа камера возвращается к лицу. </p><p> - <b>Пример сценария:</b> </p><p> - Участник: "Покажи, как рисуешь". </p><p> - Агент: </p><p> 1. Говорит: "Ща, секунду, покажу!" </p><p> 2. Камера показывает синтезированное видео руки, рисующей круг. </p><p> 3. Говорит: "Вот, типа так рисую, нормально?" </p><p>6. <b>Вывод в консоль:</b> </p><p> - Все вопросы, ответы и действия (включая демонстрации) фиксируются в консоли. </p><p> - Пример: </p><p> ```</p><p> Запрос: "Покажи свою тетрадь" </p><p> Действие: Показана синтезированная тетрадь с записями </p><p> Ответ: "Вот моя тетрадь, я тут формулы записал." </p><p> ```</p><p>- <b>Оборудование:</b> Мощный процессор и GPU для обработки видео/изображений в реальном времени. </p><p>- <b>Дополнительно:</b> Папка с материалами (голос, лицо, примеры объектов). </p><p><b>Ожидаемый результат:</b> </p><p>Агент полностью имитирует школьника: отвечает на вопросы голосом, участвует в диалоге, демонстрирует объекты через камеру и ведёт себя естественно, сохраняя при этом контроль через консоль.</p><p>---</p><p><b>Примечания для разработчика:</b> </p><p>- Обеспечить модульность кода для легкого добавления функций. </p>