La méthode du lasso pour traiter un grand nombre de variables d’entrée

27 juin 2017

La méthode du lasso pour traiter un grand nombre de variables d’entrée

Tibshirani propose une méthode de régression pour permettre aux approches statistiques linéaires de faire face au « fléau de la dimension ».

Lorsque le nombre de variables grandit si vite que les données deviennent éparses et éloignées, de nombreux algorithmes statistiques classiques donnent des résultats faussées et biaisées. Ce « fléau de la dimension » (sous-entendu de l’espace des variables), concept introduit en 1961 par Bellman, concerne tant le traitement de l’image que la finance ou la biostatistique (avec la génomique). Il pose toujours des problèmes théoriques et pratiques et fait l’objet de nombreuses recherches. Le fléau de la dimension nécessite des techniques de réduction de dimension afin de pouvoir représenter les données dans un espace adéquat et plus facilement interprétable par les distances usuelles et les algorithmes d’analyse de données classiques, notamment pour classer des données. Bien que cette méthode fût utilisée à l’origine pour des modèles utilisant l’estimateur usuel des moindres carrés, la « pénalisation lasso » s’étend à de nombreux modèles statistiques.

Menu

La méthode du lasso pour traiter un grand nombre de variables d’entrée

Tout savoir sur…