Overfitting: Ce phénomène de « surapprentissage » dégrade la performance des algorithmes de machine learning.
Dans quels cas se produit l’overfitting ? Un algorithme d’apprentissage, par exemple supervisé, cherche le modèle qui exprime le mieux la relation entre des données. L’overfitting intervient lorsque l’algorithme sur-apprend (overfit), autrement dit, lorsqu’il apprend à partir des données mais aussi à partir de patterns (schémas, structures) qui ne sont pas liés au problème, comme du bruit. Ainsi, l’overfitting est caractérisé par une erreur de type variance très élevée. Concrètement, on observe généralement de l’overfitting lorsqu’on utilise des modèles très complexes sur des problèmes simples mais bruités : par exemple, lors de l’utilisation de Support Vector Machine (SVM ou machine à vecteur de support) avec des noyaux polynomiaux de très haut degré dans le cadre de l’apprentissage d’un problème linéaire (c’est à dire d’un polynôme de degré 1). En d’autres termes, ce type de modèle conduit à de mauvaises performances car, trop complexe, il manque de capacité de généralisation. La technique la plus courante pour limiter le phénomène est la régularisation qui permet de réduire l’erreur de type variance.
+ Retour à l'index