# 11 septembre 2023 : *clustering*
## Qu'est-ce que le *clustering* (aussi appelé *quantification vectorielle*) ?
Le *clustering* consiste à **regrouper** des données (ou des vecteurs) qui sont similaires. On cherche à identifier des groupes (*clusters*), à diviser l'espace en différentes zones. Les points centraux (centres de masse) de ces zones sont appelés *centroïdes*. Ce sont de bons représentants des propriétés de leur groupe.
Une fois les groupes trouvés, on peut associer à chacun d'eux un label.

Quelques exemples :

- regrouper des patients sur base de caractéristiques physiques, de résultats, de symptômes, etc. ;
- regrouper des livres en catégories sur base de la fréquence des mots qu'ils contiennent ;
- identifier des profils d'acheteurs sur base de leur historique d'achats.

Difficultés à souligner :

- on n’a aucune idée de quelles données vont dans quel groupe (c’est de l'apprentissage **non supervisé**)
- le nombre de *clusters* n'est pas forcément connu d'avance et peut faire l'objet d'une phase préalable exploratoire.

Inspiration :

- S. Boyd et L. Vandenberghe, *Introduction to 
Applied Linear Algebr: Vectors, Matrices, and Least Squares*, Cambridge University Press, 2018.
- M. Verleysen, *LELEC2870: Machine Learning*, UCLouvain, 2012.

## Le jeu de données : les fleurs d'iris
Ce jeu de données contient 150 observations réalisées sur trois espèces d’iris (l’*iris setosa*, l’*iris versicolor* et l’*iris virginica*). Chaque observation correspond à un vecteur à quatre composantes : largeur et longueur du pétale ainsi que largeur et longueur du sépale. On a aussi à disposition, pour chaque observation, l'espèce d'iris. On n'utilisera pas cette information lors de l'apprentissage du modèle mais elle permettra de quantifier les performances de l'algorithme. 

"Iris

### Exercice 0 : visualisation des données
Le jeu de données est téléchargé ci-dessous. Visualise sur une figure les 150 observations sur base de la taille des pétales (longueur des pétales en abscisses et largeur en ordonnées).

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas
import sklearn
from sklearn import datasets

iris = datasets.load_iris()
data = pandas.DataFrame(iris.data)
data.columns = ['Sepal_Length','Sepal_Width','Petal_Length','Petal_Width']
true_labels = pandas.DataFrame(iris.target)
true_labels.columns = ['Targets']

# Visualisation des données
# ...



## Les ingrédients du clustering
Pour pouvoir réaliser du clustering dans un espace à $n$ dimensions (chaque donnée est un vecteur $x$ qui possède $n$ composantes, c'est-à-dire $x\in\mathbb R^n$), on a besoin 

1. d'un ensemble de $Q$ centroïdes (appelé *codebook*) : $m = \{y^j \in \mathbb R^n,1\le j\le Q\}$ ;
2. d'une fonction de quantification $q$ : $\mathbb R^n \to \mathbb R^n, x^i \mapsto q(x^i) = y^j$.

On va donc commencer par implémenter fonction d'initialisation du codebook `codebook_initialization` et la fonction de quantification `centroids_assignment`.

### Exercice 1 : initialiser le *codebook*
Il existe plusieurs façons de choisir le *codebook* initial. Un choix assez répandu est de choisir aléatoirement $Q$ données du jeu de données et d'en faire des centroïdes. D'autres approches existent pour vérifier, par exemple, que les centroïdes choisis sont suffisamment espacés les uns des autres.

Écris la fonction `codebook_initialization` qui prend comme input le jeu de données `data` et le nombre de clusters souhaité `Q` et renvoie les centroïdes initiaux dans `centroids`. Fais en sorte que les trois centroïdes soient choisis aléatoirement et soient distincts.

In [2]:
def codebook_initialization(data,Q):
 # ...
 return centroids

Tu peux maintenant initialiser le codebook qui servira pour le jeu de données des iris. On choisit $Q=3$. Affiche ensuite les observations et les centroïdes en plus grand et dans une autre couleur (une couleur par centroïde).

### Exercice 2 : implémenter la fonction de quantification 
En général, la fonction de quantification consiste à associer une donnée au centroïde *le plus proche*. Cette notion de *plus proche voisin* dépend de la mesure de distance considérée. Ici, nous allons considérer la distance basée sur la norme euclidienne (comme vu ce matin).

Complète la fonction de quantification `centroids_assignment` donnée ci-dessous. Celle-ci prend en entrée une liste `data` contenant l'ensemble des données et une liste `centroids`. Chaque élément de ces listes sont des vecteurs de dimension $n$ (soit une donnée, soit un centroïde). La sortie est le vecteur `group_labels` contenant les numéros des centroïdes associés à chaque donnée.

In [3]:
def centroids_assignment(data,centroids):
 # ...
 return group_labels

Pour voir si cela fonctionne bien, applique cette fonction au jeu de données et affiche les données avec la couleur correpondant au centroïde le plus proche.

## L'algorithme $k$-means
L'algorithme $k$-means se base sur le principe de Lloyd. Il contient par conséquent les étapes suivantes :

1. Initialisation du codebook.
2. Application de la fonction de quantification à *toutes les données* et évaluation de l'erreur de quantification $E$.
3. Si $E$ est assez faible, l'algorithme s'arrête.
4. Les centroïdes sont mis à jour via le *centre de gravité des données* $x^i$ associées à $y^j$ à l'étape 2.
5. Retour à l'étape 2.

Quelques points d'attention : 

- le codebook est modifié sur base de l'ensemble de la base de données ;
- $E$ diminue à chaque itération (on va le montrer sur l'exemple) ;
- il y a un risque de tomber dans un minimum local ;
- l'initialisation est très importante !

Dans la suite, on va donc implémenter :

- la fonction de mise à jour des centroïdes `centroids_update` ;
- la fonction d'évaluation de l'erreur de quantification `E`.

### Exercice 3 : implémenter la fonction de mise à jour des centroïdes
Dans l'algorithme $k$-means, les centroïdes sont mis à jour sur base de *l'ensemble des données*. Implémente la fonction `centroids_update` ci-dessous. Celle-ci a pour arguments d'entrées `data`, `centroids` et `group_labels` (l'output de la fonction `centroids_assignment`). En sortie, elle renvoie les nouveaux centroïdes, `new_centroids`. Nous verrons plus loin d'autres algorithmes qui mettent à jour le codebook pour chaque nouvelle donnée (et pas en utilisant l'entièreté du jeu de données).

In [4]:
def centroids_update(data, centroids, group_labels):
 # ...
 return new_centroids

Applique cette fonction aux centroïdes initiaux et visualise ensuite les nouveaux centroïdes obtenus. Est-ce que ta fonction fonctionne correctement ?

### Exercice 4 : évaluer l'erreur de quantification
Comme dans une régression, on essaie ici de *minimiser* la somme des distances au carré entre chaque observation et le représentant (centroïde) du cluster auquel elle appartient. Cette erreur de quantification (aussi appelée *fonction objectif* que l'on souhaite minimiser) est notée $E$. Supposons qu'il y a $P$ observations,
$$E = \frac{1}{P}\sum_{i=1}^P \| x^i - q(x^i) \|^2.$$
Écris la fonction `quantification_error` qui prend comme arguments d'entrée `data`, `centroids` et `group_labels` et renvoie en sortie un nombre réel positif `E`.

In [5]:
def quantification_error(data,centroids,group_labels):
 # ...
 return E

Quelle est l'erreur de quantification commise avec le clustering actuel du jeu de données de l'iris ?

### Exercice 5 : on teste k-means !
Maintenant, tu peux écrire la fonction `kmeans_algorithm` qui procède tel que décrit en début de section et qui utilise les fonctions décrites précédemment. Concernant le critère d'arrêt de l'algorithme, tu peux par exemple t'arrêter à l'iteration $k$ lors $\frac{E_{k-1}-E_k}{E_k} \le 10^{-3}$. Dans ce cas, on peut dire que l'erreur de quantification se stabilise et que l'algorithme a quasiment convergé.

La fonction prend comme arguments d'entrée le jeu de données `data` et les centroïdes initiaux `centroids`. Elle renvoie les nouveaux centroïdes `new_centroids`, les labels `group_labels` correspondant à chaque observation, un vecteur `E_iter` contenant les erreurs de quantification obtenues à chaque itération de l'algorithme et un entier `iteration` correspondant au nombre d'itérations avant l'arrêt de l'algorithme.

In [6]:
def kmeans_algorithm(data, centroids):
 # ...
 return new_centroids, group_labels, E_iter, iteration

Visualise les clusters obtenus ainsi que leurs centroïdes. Affiche également sur un plot l'évolution de l'erreur de quantification en fonction des itérations de l'algorithme.

**Pour information** : l'algorithme converge mais n'atteint pas forcément le minimum global (souvent, il atteint même plutôt un minimum *local*). Cela dépend des conditions initiales de l'algorithme (le choix du *codebook* initial). Une pratique courante est d'exécuter plusieurs fois l'algorithme $k$-means (par exemple, 10 fois) et de considérer l'occurence qui mène à la plus petite erreur de quantification $E$.