Учебный парсер, парсящий домены https://peps.python.org/ и https://docs. python.org/3/ через requests cache и bs4
Всего в парсере реализовано 4 функици:
- whats_new - Парсит страницу https://docs.python.org/3/whatsnew/ и рекурсивно переходит на страницы версий Python и ищет там нужную информацию.
- latest_versions - парсит страницы версий Python, рисует версию и статус конкретной версии.
- download - Скачивает документацию на последнюю версию Python
- pep - Парсит Пепы на https://peps.python.org/ , рекурсивно открывает страницы, сверяет статус Пепов на страницы листинга и страницах самих Пепов, считает их количество и выводит в удобном виде.
Для каждой фукнции сделан вывод в консоль построчно, вывод в консоль в виде таблицы, вывод в csv-файл. Так же реализованы аргументы командной строки, работает справка. Справка запускается с ключом -h или --help
- mode (Режим работы парсера) - позиционный аргумент, возможные варианты: whats-new, latest-versions, download, pep.
- '-c' ('--clear-cache) - именной аргумент очистки кеша, если его вызвать, то данные повторно будут скачаны с сайта и размещены в БД sqlite
- '-o' ('--output') - именной аргумент способа вывода данных. Принимает параметры 'pretty', 'file'. Выводит данные в виде таблицы / в файл соответственно. Без параметров выводит в консоль без оформления
- Скопировать себе гит (git clone)
- Установить виртуальное окружение
- Установить зависимости
pip install -r requirements.txt
- Перейти в каталог ./src
- Запускать командой
python main.py <аргументы>
dvkonstantinov telegram: https://t.me/Dvkonstantinov