Isolation forest: Cet algorithme non supervisé de machine learning permet de détecter des anomalies dans un jeu de données. Il isole les données atypiques, autrement dit celles qui sont trop différentes de la plupart des autres données.
Cet algorithme calcule, pour chaque donnée du jeu, un score d’anomalie, c’est à dire une mesure qui reflète à quel point la donnée en question est atypique. Afin de calculer ce score, l’algorithme isole la donnée en question de manière récursive : il choisit un descripteur et un “seuil de coupure” au hasard, puis il évalue si cela permet d’isoler la donnée en question ; si tel est le cas, l’algorithme s’arrête, sinon il choisit un autre descripteur et un autre point de coupure au hasard, et ainsi de suite jusqu’à ce que la donnée soit isolée du reste.
Le partitionnement récursif des données peut-être représenté comme un arbre de décision et le nombre de coupures nécessaires pour isoler une donnée correspond tout simplement au chemin parcouru dans l’arbre depuis la racine jusqu’à la feuille, représentant la donnée isolée. La longueur du chemin définit le score l’anomalie : les données ayant un chemin très court, c’est à dire les données faciles à isoler, ont également de grandes chances d’être des anomalies, puisqu’elles sont très loin des autres données du jeu.
Comme pour les forêts aléatoires, il est possible d’exécuter cette démarche indépendamment en utilisant plusieurs arbres, afin de combiner leurs résultats pour gagner en performance. Dans ce cas là, le score d’anomalie correspond à la moyenne des longueurs des chemins sur les différents arbres. Cet algorithme s’avère particulièrement utile car il est très rapide et qu’il ne nécessite pas de paramétrage compliqué.
Dans l’exemple suivant, on a appliqué l’algorithme Isolation forest avec 50 arbres à un jeu de données gaussien avec deux descripteurs (2 axes) comportant quelques anomalies (les 5 points les plus extrêmes en rouge sur la figure). Une fois les scores d’anomalies calculés par l’algorithme, on constante que ce sont bien ces 5 points extrêmes qui ont le score le plus élevé.
+ Retour à l'index