Approche probabiliste fréquentiste : Ce terme générique englobe tous les algorithmes de machine learning basés sur l’approche fréquentiste (par opposition à l’approche bayésienne). Ces méthodes (comme le Kernel Ridge Regression ou le k- Nearest Neighbour,) reposent généralement sur la « loi des grands nombres » et la théorie des « inégalités de concentration ».
Considérons un jeu de données et un ensemble possible de distributions au sens probabiliste, à savoir les valeurs que peuvent prendre les variables aléatoires et à quelle fréquence. Deux approches probabilistes permettent de classer les variables : l’approche bayésienne et l’approche fréquentiste. La première, que l’on qualifie parfois de théorique ou déductive, combine l’information apportée par les données avec les connaissances a priori provenant soit d’études antérieures soit d’avis d’experts, dans le but d’obtenir une information a posteriori. L’approche fréquentiste, quant à elle, repose sur les observations et consiste à trouver la distribution la plus probable au vue des données, et éventuellement son intervalle de confiance correspondant (c’est à dire l’ensemble des distributions qui ont une chance significative d’être la vraie distribution).
Prenons l’exemple d’une pièce de monnaie et de la probabilité qu’elle tombe sur pile ou face. L’approche fréquentiste se basera sur l’expérience présente (par exemple, la pièce, lancée 10 fois, est tombée 6 fois sur pile) pour établir que la « vraie » probabilité d’obtenir pile. Autrement dit 6/10 soit 0,6 dans cet exemple. Conformément à la « loi des grands nombres », en lançant la pièce un nombre important de fois, cette méthode convergera, au sens mathématique du terme, vers 0,5. Concrètement, on utilise des « inégalités de concentration » pour quantifier l’incertitude du résultat autour de bornes de probabilités. Ainsi, en utilisant l’inégalité d’Azuma-Hoeffding, on sait que si on lance une pièce équilibrée 10 000 fois, la proportion de pile sera comprise entre 0,483 et 0,517 avec une probabilité supérieure à 99 %.
Généralement, du point de vue théorique, l’approche fréquentiste ne nécessite que des hypothèses assez faibles : bien que dans la plupart des cas, on travaille sous l’hypothèse de « variable aléatoire sous-gaussienne », de nombreux travaux ont montré que l’approche fréquentiste peut fonctionner avec des prérequis très faible, comme l’existence d’un « moment d’ordre 2 » [1]).
Enfin, l’une des difficultés majeures des approches fréquentistes est le problème du surapprentissage, qui est généralement contourné en utilisant une régularisation, un outil à la fois riche, flexible mais potentiellement complexe à utiliser. À noter que le débat sur les mérites relatifs entre approche fréquentiste versus bayésienne, qui date des débuts de l’apprentissage automatique, reste toujours d’actualité dans la communauté.
[1] : Bubeck, S., Cesa-Bianchi, N., & Lugosi, G. (2013). Bandits with heavy tail. IEEE Transactions on Information Theory, 59(11), 7711-7717.
+ Retour à l'index