Code Monkey home page Code Monkey logo

data-gcp's Introduction

data-gcp

Repo pour la team data sur GCP

Organisation

+-- orchestration : DAGS Airflow (Cloud Composer)
| +-- airflow
| +-- dags
| +-- tests
|
+-- jobs
| +-- etl_jobs
|   +-- external 
|     +-- adage
|     +-- addresses
|     +-- appsflyer
|     +-- contentful
|     +-- dms
|     +-- downloads
|     +-- metabase-archiving
|     +-- qualtrics
|     +-- sendinblue
|     +-- siren
|     +-- batch
|     +-- ...
|
|   +-- internal
|     +-- cold-data
|     +-- human_ids
|     +-- import_api_referentials
|     +-- ...
|
| +-- ml_jobs
|   +-- algo_training
|   +-- embeddings
|   +-- record_linkage
|   +-- ranking_endpoint
|   +-- clusterisation
|   +-- retrieval_endpoint
|   +-- ...

INSTALL

Analytics (BigQuery)

Prérequis :

1. Installation du projet

  • Cloner le projet
    git clone [email protected]:pass-culture/data-gcp.git
    cd data-gcp
    
  • [LINUX] Installation de quelques librairies nécessaires à l'install du projet
    make install_ubuntu_libs
    
  • [VM DEBIAN] Installation d'autres librairies et fix de l'environnement pour les VM :
    make install_on_debian_vm
    
  • Installation du projet
    • La première fois : installation from scratch, avec création des environnements virtuels
      make clean_install
      
    • Installation rapide des nouveaux packages
      make install
      

2. Config .env.local

Dans le fichier .env.local, renseigne les valeurs des variables manquantes en utilisant cette page

Orchestration

Orchestration des jobs dags analytics & data science.

plus de détails dans dags/README.md

Les dags sont déployés automatiquement lors d'un merge sur master / production

CI/CD

CI

On utilise CircleCI pour lancer des tests sur les différentes parties du repo. Les tests sont lancés sur toutes les branches git et sont répartis entre les jobs suivants :

  • linter : tester le bon formattage du code de tout le repo en utilisant Black
  • orchestration-tests : tester les différents DAGs d'orchestration

CD

Pour la CD, on utilise deux outils : CircleCI et Cloud Build.

CircleCI

Voici les jobs créés pour le déploiement :

  • vertex-ai-deploy : déployer les modèles de ML via MLFlow dans Cloud Storage puis l'utiliser pour mettre à jour la version du modèle sur VertexAI
  • composer-deploy : déployer le dossier dags dans le bucket du Cloud Composer sur Cloud Storage

Ces déploiements sont déclenchés sur les branches master / production.

data-gcp's People

Contributors

adrienlin avatar adrienlpassculture avatar aliochka avatar aliraiki avatar anthonyjezequel avatar bourliam avatar carolinemestre-passculture avatar cdelabre avatar celiabarranger avatar colinzaccomer avatar dcuesta-pass avatar dependabot[bot] avatar emnak avatar facundoalcalapc avatar ferdihr avatar florianc-ds avatar gabrielsicara avatar jrovani avatar jules-arbelot avatar julieprost avatar kopax-polyconseil avatar lgerard-pass avatar lmontier avatar lucilerainteau avatar lucille-artgd avatar mathilde-vey avatar matthieuripollpassculture avatar ogeber avatar pandalab1 avatar valoumiaou avatar

Stargazers

 avatar

Watchers

 avatar  avatar  avatar

Forkers

anujmnit71

data-gcp's Issues

404 - page not found dans pass-culture-main

Bonjour, je passe sur vos repos suite à l'annonce de data analyst publiée sur welcome to the jungle.
Je suis passée sur le readme de pass-culture-main pour voir la documentation, et j'ai vu que le lien doc menait à une page not found (https://github.com/pass-culture/pass-culture-main/blob/master/doc), je ne sais pas si c'est intentionnel.
J'ai ouvert le ticket ici car je n'ai pas les droits pour le faire sur le repo pass-culture-main, si votre équipe peut leur faire remonter...
Bonne journée

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.