Сделать парсер новостного сайта
Нужно паристь статьи и собирать их в базу c которой правильно будет работать нейросеть, предварительно через Claude API.
В базе должны быть чётко определены эти данные:
Источник - название медиа
Автор статьи и ссылка на его профиль
Дата публикации
Текст статьи
Ссылка на эту статью
Исходящие ссылки внутри статьи
Внутренние ссылки внутри статьи (ссылки на другие статьи в этом же медиа)
Теги
Первый источник:
https://cointelegraph.com/
https://cointelegraph.com/rss
Важно чтобы скрипт требовал мало ресурсов на работу
Язык Python
Данные должны сохраняться в JSON-файл
В базу SQLite добавляться запись с URL статьи, путём к JSON-файлу и статусом "new"
Примерная логика того что мне нужно:
Парсер запускается по расписанию (например, каждые 30 минут) и выполняет следующую последовательность действий:
Получает RSS фид с сайта Cointelegraph. В RSS уже содержатся основные метаданные: URL статей, заголовки, даты публикации, авторы, категории.
Из полученного RSS фида извлекается список всех URL статей. Этот список сравнивается с базой SQLite, где хранятся URL уже обработанных статей. Формируется список только новых URL, которые ещё не обрабатывались.
Если новых URL нет, работа парсера завершается до следующего запуска по расписанию.
Если новые URL найдены, начинается их последовательная обработка.