Bruit : Le bruit altère les données collectées et risque de rendre difficile l’apprentissage de la relation que l’on cherche à prédire, voire de rendre la modélisation impossible.
Dans l’immense majorité des problèmes réels, la collecte des données est confrontée à une voire plusieurs formes de bruits. Ces bruits peuvent être d’origine « matérielle » (bruit blanc dans les signaux électriques, bruit au sens acoustique, etc.), d’imprécision ou de défaut dans les mesures issues de capteurs, d’approximation dans les données ou encore de données manquantes car non mesurées.
De fait, la plupart des modèles et des algorithmes sont conçus pour fonctionner malgré la présence de bruit. Cependant, si le bruit est trop « élevé », aucun algorithme ne peut marcher : le problème devient tout simplement mathématiquement impossible à résoudre.
Prenons l’exemple d’un problème de régression scalaire classique. Le but est de prédire une variable aléatoire Y à partir d’une variable aléatoire X. Un des modèles les plus simples consiste à supposer qu’il existe une fonction , que l’on cherche à déterminer, telle que dans les données observées,
Où est une variable aléatoire indépendante de X qui représente le bruit. Si le bruit a ce qu’on appelle de « bonnes propriétés » (il est borné, sous gaussienne, etc.), il existe plusieurs algorithmes pour résoudre le problème et trouver la fonction (comme Kernel Ridge Regression). À l’inverse, si n’est pas de carré intégrable, ce qui revient à dire qu’il n’a pas de bonnes propriétés, le problème est beaucoup plus compliqué à résoudre. Finalement si le bruit n’est pas absolument intégrable, il n’y a généralement pas de solution au problème.
+ Retour à l'index