scrapy_parser_pep's Introduction

Aсинхронный парсер PEP

Парсер документов PEP на базе фреймворка Scrapy. Парсер создает два файла отчета: файл со списком PEP, включающим номер документа, название и статус и файл суммарной статистики по количеству документов в разных статусах. Это учебный проект

Содержание

Технологии
Использование
Над проектом работали

Технологии

Использование

Клонировать репозиторий к себе на компьютер:

[email protected]:Andrey-Vyshegorodskiy/scrapy_parser_pep.git

Cоздать и активировать виртуальное окружение:

python -m venv venv
source venv/scripts/activate

Установить зависимости из файла requirements.txt, который лежит в корне проекта:

python3 -m pip install --upgrade pip
pip install -r requirements.txt

Запуск парсера:

scrapy crawl pep

Результаты работы парсера:

Парсер выводит собранную информацию в два файла .csv:

В первом файле (именован по маске pep_ДатаВремя.csv) - список всех PEP: номер, название и статус.
Во втором файле (именован по маске statussummaryДатаВремя.csv) содержится сводка по статусам PEP — сколько найдено документов в каждом статусе (статус, количество) и общее количество всех документов.