Le mot Bagging est une contraction de Bootstrap Aggregation. Le bagging est une technique utilisée pour améliorer la classification notamment celle des arbres de décision, considérés comme des « classifieurs faibles », c’est-à-dire à peine plus efficaces qu’une classification aléatoire.
En général, le bagging a pour but de réduire la variance de l’estimateur, en d’autres termes de corriger l’instabilité des arbres de décision (le fait que de petites modifications dans l’ensemble d’apprentissage entraînent des arbres très différents). Pour ce faire, le principe du bootstrap est de créer de « nouveaux échantillons » par tirage au hasard dans l’ancien échantillon, avec remise. L’algorithme, par exemple l’arbre de décision, est entraîné sur ces sous-ensembles de données. Les estimateurs ainsi obtenus sont moyennés (lorsque les données sont quantitatives, cas d’un arbre de régression) ou utilisés pour un « vote » à la majorité (pour des données qualitatives, cas d’un arbre de classification). C’est la combinaison de ces multiples estimateurs « indépendants » qui permet de réduire la variance. Toutefois, chaque estimateur est entrainé avec moins de données. En pratique, la méthode de bagging donne d’excellents résultats (notamment sur les arbres de décision utilisés en « forêts aléatoires »).
+ Retour à l'index