Парсер документов PEP на базе фреймворка Scrapy. Выводит собранную информацию в два файла .csv:
- В первый файл парсится список всех PEP: номер, название и статус.
- Второй файл содержит сводку по статусам PEP — сколько найдено документов в каждом статусе (статус, количество) и подсчитывает общее количество всех документов.
- Клонировать репозиторий и перейти в него в командной строке:
git clone [email protected]:STI-xa/scrapy_parser_pep.git
- Cоздать и активировать виртуальное окружение:
python -m venv venv
source venv/Scripts/activate
- Установить зависимости из файла requirements.txt:
python -m pip install --upgrade pip
pip install -r requirements.txt
- Запустить паука pep:
scrapy crawl pep
После завершения работы парсера в директории /results появятся файлы pep_{datetime}.csv и status_summary_{datetime}.csv.