Este projeto consiste num scraping de informações sobre o campeonato espanhol, os times, pontuação e outras informações. Como esses dados são atualizados constantemente, utilizar o airflow se torna interessante para rodar a pipeline semanalmente e atualizar suas informações.
-
Clone este repo
-
Cria as pastas necessarias rondando:
mkdir ./logs ./plugins
- Instale o docker na sua maquina caso não tenha:
- Download Docker Desktop Application for Mac OS
- Download Docker Desktop Application for Windows
- Download Docker Desktop Application for Linux
- Agora faça o build da image extendida, com os modulos python que o projeto precisa.
docker build . --tag extending_airflow:latest
- Inicie o airflow usando docker-compose
docker-compose up -d
- Caso seja a primeira vez que esteja executando ele criar todos os containers do airflow!
- Verifique se os containers do airflow estão rodando
docker ps
- Caso algum container do airflow não estiver rodando, execute novamente o passo 5!
- Abra o navegador e acesse http://0.0.0.0:8080/
- Para acessar o airflow webserver use como login e senha 'airflow'