Парсер документов PEP на базе фреймворка Scrapy. Парсер создает два файла отчета: файл со списком PEP, включающим номер документа, название и статус и файл суммарной статистики по количеству документов в разных статусах. Это учебный проект
- Клонировать репозиторий к себе на компьютер:
[email protected]:Andrey-Vyshegorodskiy/scrapy_parser_pep.git
- Cоздать и активировать виртуальное окружение:
python -m venv venv
source venv/scripts/activate
- Установить зависимости из файла requirements.txt, который лежит в корне проекта:
python3 -m pip install --upgrade pip
pip install -r requirements.txt
scrapy crawl pep
Парсер выводит собранную информацию в два файла .csv:
-
В первом файле (именован по маске
pep_ДатаВремя.csv
) - список всех PEP: номер, название и статус. -
Во втором файле (именован по маске
statussummaryДатаВремя.csv
) содержится сводка по статусам PEP — сколько найдено документов в каждом статусе (статус, количество) и общее количество всех документов.
- Андрей Вышегородский