Le clustering K-means partitionne les données en k groupes homogènes en minimisant la variance intra-groupe. C'est l'algorithme de clustering le plus utilisé en apprentissage non-supervisé.
Quand l'utiliser ?
Segmenter une population en profils distincts
Identifier des sous-groupes naturels dans des données
Explorer la structure d'un jeu de données sans étiquettes
Conditions requises
Variables continues
Données standardisées recommandées
Nombre de clusters k choisi par l'utilisateur (aide au choix fournie)
Ce que StatsLab calcule
Assignation de chaque observation à un cluster
Centroïdes des clusters
Inertie intra-classe (Within-SS)
Graphique du coude (Elbow plot) pour choisir k
Visualisation 2D des clusters (PCA)
Statistiques descriptives par cluster
Exemple concret
Contexte : Segmentation de 200 clients en groupes selon leur comportement d'achat (fréquence, montant, récence).
Interprétation : Le graphique du coude suggère k=3. Les clients fidèles dépensent 3× plus que les inactifs. Cette segmentation guide la stratégie marketing différenciée.