Fajwel Fogel : Le Machine Learning de la finance à la santé
⏱ 4 minDirecteur scientifique de la start-up Sancare, qui propose des logiciels de facturation automatique aux hôpitaux, Fajwel Fogel est passé par une thèse et plusieurs environnements professionnels avant de trouver ce qui lui convenait.
« Je n’envisageais pas de faire de l’informatique avant le bac », se souvient Fajwel Fogel. C’est le goût des maths qui a poussé le jeune homme, à présent responsable scientifique de la start-up Sancare, à opter pour L’École nationale de la statistique et de l’administration économique (Ensae) après une prépa. Dans cette école, il privilégie rapidement un parcours de maths appliquées. La révélation pour le Machine Learning vient lors d’un stage de césure effectué avant la dernière année. « C’était un stage d’un an consistant à optimiser des portefeuilles d’investissements dans une société d’asset management, Amundi ».
Savoir saisir les opportunités
C’est la première fois qu’il entend parler des méthodes de Machine Learning. « On était en 2010 et c’était la discipline qui montait dans les data sciences, même si elle n’avait pas encore explosé comme aujourd’hui », se souvient-il. « Outre son actualité, ce qui me plaisait dans ce domaine était son aspect très pratique et itératif : on procède par essais-erreur jusqu’à aboutir à une solution la plus satisfaisante possible », poursuit-il.
Après un Master of Science à l’université de Columbia, aux États-Unis, le jeune diplômé s’oriente naturellement vers un doctorat et décroche une thèse au sein du laboratoire Sierra (ENS Paris / INRIA / CNRS) sous la direction des chercheurs Alexandre d’Aspremont et Francis Bach, sur des problématiques de tri à base de Machine Learning. « Il s’agissait de trouver un ordre dans une série d’éléments qu’on peut comparer les uns avec les autres, avec des applications notamment sur le séquençage d’ADN. Lorsque l’on essaye de séquencer un brin d’ADN encore inconnu, la méthode consiste à copier ce brin en plusieurs exemplaires identiques, puis de sectionner ces exemplaires en plusieurs petits morceaux. Le challenge, ensuite, est de reconstituer rapidement la séquence de l’ADN d’après ce mélange de petits morceaux, en les classant les uns par rapport aux autres d’après leurs redondances », détaille Fajwel Fogel, qui a déployé des algorithmes – basés sur des méthodes spectrales et d’optimisation convexe– capables d’établir ce type de classement.
Explorer différents mondes professionnels
Après cette thèse et un post-doc de quelques mois à l’Institut Louis Bachelier sur la détection automatique de fraudes à la carte bancaire (d’après des patterns d’achats anormaux), le jeune homme décide de rejoindre la start-up fraîchement créé par son ancien maître de stage Alexandre d’Aspremont. « Malgré mon intérêt pour le monde académique, j’avais besoin de résultats plus concrets et immédiats. On trouve aussi dans l’approche des start-up un aspect collaboratif dans l’organisation du travail, que l’on ne trouve pas forcément dans la recherche, et qui m’attirait », explique Fajwel Fogel.
Baptisée Kayrros, cette start-up ambitionne de fournir des prévisions précises de production énergétique pour les marchés de l’oil and gas. « J’y supervisais le développement d’algorithmes capables d’extraire des informations à partir d’une large variété de sources pour prédire, par exemple, la production gazière d’un pays, région par région », résume-t-il. L’aventure dure un an. « L’aspect management de ce poste, trop important pour moi, prenait le pas sur l’aspect technique, le plaisir de développer les choses par moi-même. Par exemple, certains collègues développaient des logiciels de reconnaissance visuelle à base de Deep learning pour l’analyse d’images satellite, mais je ne pouvais suivre que de loin leurs développements », regrette-t-il.
Pour choisir celui qui convient
En 2017, Fajwel Fogel intègre Sancare, dont il a rencontré le fondateur Thomas Duval par l’intermédiaire de Francis Bach, également conseiller scientifique de la start-up. Sancare propose un logiciel permettant aux hôpitaux d’automatiser en partie la tâche de facturation. « Cette tâche consiste pour l’hôpital à récupérer les dossiers patients informatisés (DPI), à y retrouver les diagnostics établis auprès du patient, puis à envoyer à l’Assurance Maladie le code correspondant dans une nomenclature préétablie pour se faire rembourser. Or cette tâche est chronophage pour les médecins et le personnel hospitalier, et il y a en outre toujours une part d’erreur humaine », explique le data scientist.
Les algorithmes développés par Sancare sont capables de « lire » les DPI automatiquement grâce à des méthodes de traitement du langage naturel (ou NLP pour Natural Language Processing), pour en extraire les informations pertinentes et établir la facturation. Particularité de l’opération : chaque programme est développé au sein même du serveur interne de l’hôpital, « car la législation ne permet pas de traiter les données médicales en dehors, pour des raisons de confidentialité. Cela apporte une complexité en terme d’apprentissage automatique : il faut se baser uniquement sur les données de chaque hôpital pour envisager des techniques d’apprentissage », précise Fajwel Fogel.
D’un point de vue technique, il faut aussi composer avec l’état de l’art du NLP, en constante évolution, « ce qui implique de réadapter régulièrement nos solutions, ajoute-t-il. J’apprécie beaucoup le côté expérimental des algorithmes de Deep Learning : entraîner un réseau de neurones n’est pas trivial, il faut être suffisamment rigoureux pour savoir dans quelle direction va le développement, ce que l’on a testé, ce que l’on n’a pas encore testé, et comment évaluer le programme sur plusieurs jeux de données différents pour s’assurer de la stabilité de ses performances ».
Ne pas hésiter à changer d’activité
Ses défis du moment : améliorer la transparence des algorithmes de Deep Learning, « car les utilisateurs veulent pouvoir retracer pourquoi et comment ils ont retrouvé tel ou tel diagnostic. Il faut également quantifier toujours plus précisément l’incertitude associée au résultat », note le responsable scientifique de Sancare. Une chose est sûre : il se sent bien dans cette start-up : « Je préfère travailler pour le monde médical que pour la finance ou l’énergie, car j’y vois plus directement l’utilité de mon travail », conclut-il. Son parcours semble en tout cas adresser un message aux futurs data scientists : il ne faut pas hésiter à changer d’activité pour trouver sa voie.
Hugo Leroux