Forêt aléatoire (Random Forest)

Prédisez et identifiez les variables les plus importantes.

Définition

La forêt aléatoire est un algorithme d'apprentissage automatique supervisé basé sur un ensemble d'arbres de décision. Elle est robuste, peu sensible aux valeurs aberrantes et fournit automatiquement une mesure de l'importance des variables.

Quand l'utiliser ?

Prédiction avec de nombreuses variables (classification ou régression)
Identifier les variables les plus prédictives
Données avec valeurs manquantes ou variables mixtes
Quand les relations sont complexes et non-linéaires

Conditions requises

Variable dépendante binaire (classification) ou continue (régression)
Variables indépendantes continues ou catégorielles
N ≥ 50 recommandé pour la stabilité

Ce que StatsLab calcule

Importance des variables (Gini)
Graphique des importances (bar chart)
AUC-ROC (classification)
Matrice de confusion
Taux d'erreur OOB (Out-Of-Bag)
Précision, rappel, F1-score

Exemple concret

Contexte : Prédiction de l'abandon scolaire (Oui/Non) à partir de 12 variables socio-démographiques et scolaires.

Résultat obtenu : AUC = 0,89 · OOB error = 8,2% · Top variable : Absentéisme (importance = 0,31)

Interprétation : Excellent pouvoir prédictif (AUC = 0,89). L'absentéisme est de loin la variable la plus prédictive. Le modèle classe correctement 91,8% des élèves.

Lancer cette analyse