Data-Quality-Audit-and-Cleaning-Pipeline

🧹 Pipeline d’Audit et de Nettoyage de Données

Python
Pandas
ydata-profiling
Automatisation


📌 Aperçu

Ce projet implémente un pipeline d’audit et de nettoyage de données conçu pour aider les analystes, data scientists et ingénieurs à évaluer et améliorer rapidement la qualité de leurs jeux de données.

Il effectue deux tâches principales :

  1. Audit (Profiling) – Génération de rapports HTML interactifs avant et après nettoyage via ydata-profiling.
  2. Nettoyage – Suppression des doublons, correction des noms de colonnes, gestion des valeurs manquantes et standardisation des types de données.

✅ Résultat : un jeu de données propre accompagné de deux rapports d’audit comparatifs.


⚙️ Fonctionnalités


📊 Exemple – Jeu de données Online Retail

Le pipeline a été testé sur le dataset Online Retail.

🔍 Audit Avant Nettoyage

👉 Voir le rapport (HTML)

Observations clés :

✅ Audit Après Nettoyage

👉 Voir le rapport (HTML)

Améliorations constatées :


✨ Résumé des améliorations