Code Monkey home page Code Monkey logo

bs4_parser_pep's Introduction

Проект парсера PEP

Описание проекта

Учебный парсер, парсящий домены https://peps.python.org/ и https://docs. python.org/3/ через requests cache и bs4

Технологический стек

Подробное описание проекта

Всего в парсере реализовано 4 функици:

  • whats_new - Парсит страницу https://docs.python.org/3/whatsnew/ и рекурсивно переходит на страницы версий Python и ищет там нужную информацию.
  • latest_versions - парсит страницы версий Python, рисует версию и статус конкретной версии.
  • download - Скачивает документацию на последнюю версию Python
  • pep - Парсит Пепы на https://peps.python.org/ , рекурсивно открывает страницы, сверяет статус Пепов на страницы листинга и страницах самих Пепов, считает их количество и выводит в удобном виде.

Для каждой фукнции сделан вывод в консоль построчно, вывод в консоль в виде таблицы, вывод в csv-файл. Так же реализованы аргументы командной строки, работает справка. Справка запускается с ключом -h или --help

Аргументы

  1. mode (Режим работы парсера) - позиционный аргумент, возможные варианты: whats-new, latest-versions, download, pep.
  2. '-c' ('--clear-cache) - именной аргумент очистки кеша, если его вызвать, то данные повторно будут скачаны с сайта и размещены в БД sqlite
  3. '-o' ('--output') - именной аргумент способа вывода данных. Принимает параметры 'pretty', 'file'. Выводит данные в виде таблицы / в файл соответственно. Без параметров выводит в консоль без оформления

Разворачивание проекта локально (Windows)

  1. Скопировать себе гит (git clone)
  2. Установить виртуальное окружение
  3. Установить зависимости
pip install -r requirements.txt
  1. Перейти в каталог ./src
  2. Запускать командой python main.py <аргументы>

Автор

dvkonstantinov telegram: https://t.me/Dvkonstantinov

bs4_parser_pep's People

Contributors

dvkonstantinov avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.