Clustering K-means

Identifiez des groupes naturels dans vos données.

Définition

Le clustering K-means partitionne les données en k groupes homogènes en minimisant la variance intra-groupe. C'est l'algorithme de clustering le plus utilisé en apprentissage non-supervisé.

Quand l'utiliser ?

Segmenter une population en profils distincts
Identifier des sous-groupes naturels dans des données
Explorer la structure d'un jeu de données sans étiquettes

Conditions requises

Variables continues
Données standardisées recommandées
Nombre de clusters k choisi par l'utilisateur (aide au choix fournie)

Ce que StatsLab calcule

Assignation de chaque observation à un cluster
Centroïdes des clusters
Inertie intra-classe (Within-SS)
Graphique du coude (Elbow plot) pour choisir k
Visualisation 2D des clusters (PCA)
Statistiques descriptives par cluster

Exemple concret

Contexte : Segmentation de 200 clients en groupes selon leur comportement d'achat (fréquence, montant, récence).

Résultat obtenu : 3 clusters identifiés : Clients fidèles (n=68), Occasionnels (n=89), Inactifs (n=43)

Interprétation : Le graphique du coude suggère k=3. Les clients fidèles dépensent 3× plus que les inactifs. Cette segmentation guide la stratégie marketing différenciée.

Lancer cette analyse