L’apprentissage par renforcement (RL pour Reinforcement Learning) fait référence à une classe de problèmes d’apprentissage automatique, dont le but est d’apprendre, à partir d’expériences successives, ce qu’il convient de faire de façon à trouver la meilleure solution.
Dans un tel problème, on dit qu’un « agent » (l’algorithme, au sens du code et des variables qu’il utilise) interagit avec « l’environnement » pour trouver la solution optimale. L’apprentissage par renforcement diffère fondamentalement des problèmes supervisés et non supervisés par ce côté interactif et itératif : l’agent essaie plusieurs solutions (on parle « d’exploration »), observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie (il « exploite » le résultat de ses explorations). Un des concepts clés de ce type de problèmes est l’équilibre entre ces phases d’exploration et d’exploitation. Cette méthode est particulièrement adaptée aux problèmes nécessitant un compromis entre la quête de récompenses à court terme et celle de récompenses à long terme. Parmi les exemples de problèmes traités de cette façon, on peut évoquer : apprendre à un robot à marcher en terrain difficile, à conduire (cas de la voiture autonome) ou à accomplir une tâche spécifique (comme jouer au jeu de go), piloter un agent à travers un labyrinthe, etc. Les principales familles de problèmes d’’apprentissage par renforcement sont les algorithmes de bandits, les problèmes de décisions (partiellement) markovien et les arbres de jeu.
+ Retour à l'index