Réduction de dimensionnalité : On désigne ainsi toute méthode permettant de projeter des données issues d’un espace de grande dimension dans un espace de plus petite dimension. Cette opération est cruciale en apprentissage automatique pour lutter contre ce qu’on appelle le fléau des grandes dimensions (le fait que les grandes dimensions altèrent l’efficacité des méthodes).
On emploie ici le mot « dimension » au sens algébrique, i.e. la dimension de l’espace vectoriel sous-jacent aux valeurs des vecteurs de descripteurs. La réduction de dimensionnalité permet de réduire la complexité d’un problème d’apprentissage automatique à plusieurs niveaux :
– d’un point de vue théorique, cela entraîne automatiquement une amélioration des propriétés de stabilité et de robustesse des algorithmes (voir par exemple [Bousquet 2002]).
– d’un point de vue pratique, cela simplifie la résolution du problème d’optimisation associé, en réduisant l’espace des solutions. En d’autres termes, réduire la dimensionnalité limite le nombre de possibilités à tester, ce qui permet de traiter les données plus rapidement. Ce gain de temps est fonction de la dépendance de la complexité temporelle de l’algorithme par rapport à la dimension : ainsi dans le cas d’un algorithme comme le Kernel Ridge Regression, la dépendance vis-à-vis de la dimension étant linéaire, une réduction de moitié de la dimension double la vitesse de l’algorithme.
Pour réduire la dimension, on peut agir sur deux leviers :
1) Supprimer des dimensions (ou descripteurs),
2) Combiner les variables afin d’obtenir un plus petit nombre de nouvelles variables plus expressives et/ou moins redondantes.
Parmi les méthodes les plus connues, on compte :
– l’ ACP (Analyse en composantes principales) et ses variantes, qui consistent à identifier les principales directions (combinaisons de descripteurs), i.e. celles qui concentrent le plus de variance,
– l’ACI (Analyse en composantes indépendantes) qui cherche en plus à identifier des directions orthogonales, c’est à dire décorrélées les unes des autres,
– les régularisations de type L1 ou Lasso (cas par exemple des machines à vecteurs de support ou SVM) qui forcent le modèle à atteindre un équilibre entre performance et nombre de dimensions retenues.
– les algorithmes sparses, comme par exemple l’apprentissage par dictionnaire sparse, dont le but est de représenter un signal complexe comme une combinaison d’un nombre réduit de signaux élémentaires simples.
Référence :
Bousquet, Olivier, and André Elisseeff. « Stability and generalization. » Journal of machine learning research 2.Mar (2002): 499-526.
+ Retour à l'index