ТЗ для задачи:
Принимает ссылки на главные страницы новостных порталов или их разделов (например: /news, /sport, /culture)
Извлекает со страницы:
Ссылки на отдельные статьи
Заголовки
Основной текст
Комментарии (если доступны)
Группирует статьи по тематике (главная, политика, спорт и т.д.)
Выводит результат в интерфейсе и сохраняет в Excel
...
[:1f3af] Цель:
Разработать программу (в формате .exe или web), которая:
Принимает ссылки на главные страницы новостных порталов или их разделов (например: /news, /sport, /culture)
Извлекает со страницы:
Ссылки на отдельные статьи
Заголовки
Основной текст
Комментарии
Группирует статьи по тематике (главная, политика, спорт и т.д.)
Выводит результат в интерфейсе и сохраняет в Excel
[:1f5a5] Интерфейс:
Многовкладочный (от 5 до 10+ вкладок,ссылок)
Каждая вкладка соответствует одному сайту
Возможность добавления, изменения и удаления ссылок
Результаты отображаются в виде списка новостей с заголовком, содержанием и комментариями
[:1f916] ИИ и логика:
Использование локальной модели LLaMA-3 8B
ИИ анализирует HTML и возвращает CSS-селекторы
Программа парсит данные с помощью requests/BeautifulSoup или Playwright (для динамического контента)
[:2699] Технические детали:
Язык: Python
GUI: customtkinter или streamlit
Сохранение: Excel-файлы (.xlsx) через pandas
Поддержка JavaScript-загрузки через Playwright, если требуется
[:1f4c1] Формат сохранения:
Каждая сессия — новая вкладка в Excel или отдельный файл
[:1f501] Возможность распозновать повторы.