Projets OpenClassrooms
Parcours Data Scientist 2021-2022

📚 Vue d'ensemble
Les projets présentés ci-dessous illustrent une approche complète du cycle data : cadrage, préparation, modélisation, explicabilité et déploiement. Le Projet 7 - Scoring Crédit est détaillé sur une page dédiée.
💡 Compétences développées
- Analyse exploratoire : Collecte, nettoyage, visualisation et interprétation de données massives
- Machine Learning : Classification, régression, clustering avec optimisation d'hyperparamètres
- NLP & Computer Vision : Traitement texte (TF-IDF, embeddings) et images (CNN, ORB)
- Big Data & Cloud : PySpark, Docker, AWS, architecture scalable
🎯 Les 6 Projets
Projet 8 — Cloud
Déploiement ML sur infrastructure cloud AWS avec PySpark pour traitement d'images agricoles à grande échelle.
PySpark
AWS
Docker
S3
Projet 6 — Multi-modal
Classification automatique produits avec pipeline NLP (TF-IDF) et Computer Vision (CNN, ORB).
NLP
CNN
OpenCV
Keras
Projet 5 — Clustering
Segmentation clients e-commerce avec analyse RFM et algorithmes de clustering non supervisé.
K-means
RFM
PCA
DBSCAN
Projet 4 — Régression
Prédiction consommation énergétique bâtiments Seattle avec XGBoost et réseaux de neurones.
XGBoost
MLP
Régression
Projet 3 — Santé
Modèle prédictif nutriscore avec feature engineering et classification supervisée.
scikit-learn
Classification
Features
Projet 2 — Analyse
Analyse exploratoire données Banque Mondiale pour expansion plateforme éducative.
Pandas
EDA
Matplotlib