Prédisez et identifiez les variables les plus importantes.
Définition
La forêt aléatoire est un algorithme d'apprentissage automatique supervisé basé sur un ensemble d'arbres de décision. Elle est robuste, peu sensible aux valeurs aberrantes et fournit automatiquement une mesure de l'importance des variables.
Quand l'utiliser ?
Prédiction avec de nombreuses variables (classification ou régression)
Identifier les variables les plus prédictives
Données avec valeurs manquantes ou variables mixtes
Quand les relations sont complexes et non-linéaires
Conditions requises
Variable dépendante binaire (classification) ou continue (régression)
Variables indépendantes continues ou catégorielles
N ≥ 50 recommandé pour la stabilité
Ce que StatsLab calcule
Importance des variables (Gini)
Graphique des importances (bar chart)
AUC-ROC (classification)
Matrice de confusion
Taux d'erreur OOB (Out-Of-Bag)
Précision, rappel, F1-score
Exemple concret
Contexte : Prédiction de l'abandon scolaire (Oui/Non) à partir de 12 variables socio-démographiques et scolaires.
Interprétation : Excellent pouvoir prédictif (AUC = 0,89). L'absentéisme est de loin la variable la plus prédictive. Le modèle classe correctement 91,8% des élèves.