🧹 Pipeline d’Audit et de Nettoyage de Données




📌 Aperçu
Ce projet implémente un pipeline d’audit et de nettoyage de données conçu pour aider les analystes, data scientists et ingénieurs à évaluer et améliorer rapidement la qualité de leurs jeux de données.
Il effectue deux tâches principales :
- Audit (Profiling) – Génération de rapports HTML interactifs avant et après nettoyage via ydata-profiling.
- Nettoyage – Suppression des doublons, correction des noms de colonnes, gestion des valeurs manquantes et standardisation des types de données.
✅ Résultat : un jeu de données propre accompagné de deux rapports d’audit comparatifs.
⚙️ Fonctionnalités
- 📂 Support multi-format : CSV, Excel, JSON, Parquet, TXT
- 🧾 Rapports d’audit : fichiers HTML interactifs avant et après nettoyage
- 🧹 Nettoyage automatisé incluant :
- Suppression des doublons
- Normalisation des noms de colonnes (snake_case)
- Conversion des types de données (numériques, datetime)
- Gestion des valeurs manquantes (médiane pour numériques,
"unknown"
pour textes)
- 💾 Export du dataset nettoyé dans le même format que le fichier d’entrée
- 🌐 Ouverture automatique dans le navigateur des rapports générés
📊 Exemple – Jeu de données Online Retail
Le pipeline a été testé sur le dataset Online Retail.
🔍 Audit Avant Nettoyage
👉 Voir le rapport (HTML)
Observations clés :
- Valeurs manquantes dans plusieurs colonnes (
CustomerID
)
- Nombreuses lignes dupliquées
- Types de données incorrects (dates en texte, colonnes numériques avec bruit)
- Noms de colonnes incohérents
✅ Audit Après Nettoyage
👉 Voir le rapport (HTML)
Améliorations constatées :
- Doublons supprimés → milliers de lignes redondantes éliminées
- Valeurs manquantes traitées → imputations adaptées appliquées
- Noms de colonnes harmonisés en snake_case
- Types de données corrigés → ex.
InvoiceDate
en datetime
✨ Résumé des améliorations
- Réduction de la taille du dataset via suppression des doublons
- Cohérence renforcée des noms de colonnes → analyses et modélisation facilitées
- Traitement systématique des valeurs manquantes
- Diminution significative des alertes du profiling → qualité des données améliorée