Normalisation : La normalisation est une méthode de prétraitement des données qui permet de réduire la complexité des modèles. C’est également un préalable à l’application de certains algorithmes.
La normalisation standardise la moyenne et l’écart-type de tout type de distribution de données, ce qui permet de simplifier le problème d’apprentissage en s’affranchissant de ces deux paramètres.
Pour effectuer cette transformation, on soustrait aux données leur moyenne empirique met on les divise par leur écart-type σ.
Par exemple, dans le cas particulier où les données suivent une loi gaussienne, on obtient après normalisation une loi normale standard.
Cette méthode a en outre de nombreuses applications dans la fouille de données. Elle est un préalable important à l’application de certains algorithmes de clustering (k-means, t-SNE) car elle égalise le poids de chaque dimension, c’est-à-dire de chaque descripteur. A l’inverse, elle est à proscrire pour l’utilisation d’autres algorithmes, par exemple l’analyse en composantes principales (PCA), justement fondée sur l’importance relative de chaque dimension. Enfin la normalisation n’a pas d’utilité pour certains algorithmes basés sur des seuils comme les arbres de décisions car elle ne modifie pas le résultat.
+ Retour à l'index