L’autoformation en data science par les Mooc
⏱ 7 minLes cours en ligne sont une possibilité offerte à tous, même si certains Mooc sont payants. Ces formations en ligne sont un excellent moyen d’évaluer ses compétences dans un domaine, ou de se remettre à niveau. Pour les plus consistants, cela s’apparente à un enseignement ; mais les assimiler est alors un défi pour la plupart des élèves.
« Les Mooc sont des objets étranges », lance Avner Bar-Hen, professeur au Cnam (Conservatoire national des arts et métiers) qui avait créé le premier Mooc (acronyme anglais de Massive Open Online Course, en français formation en ligne ouverte à tous) de statistique en français en 2014, deux ans après l’apparition de ce nouveau format de transmission des connaissances venu des États-Unis.
Sans surprise, le Cnam, organisme dédié à la formation à distance, compte plus d’un quart des inscriptions à des Mooc de la plateforme française FUN (France université numérique), toutes matières confondues (quelques exemples en data science : sur le deep learning ou l’IA). « Pour moi, un Mooc qui dure quelques semaines avec une dizaine d’heures de vidéo permet d’acquérir des connaissances dans un domaine, mais ce n’est pas un enseignement. C’est intermédiaire entre un apprentissage et une formation. Je considère cela comme un excellent complément de remise à niveau, par exemple pour savoir si on postule ou non à une formation, ou en tant qu’enseignement complémentaire pour apprendre à se servir de tel ou tel logiciel ; mais cela doit s’intégrer dans une démarche de formation plus large. »
Divers formats de Mooc
De fait, il y a de tout dans les Mooc ! Du cours d’une demi journée à la formation de 350 heures suivie sur plusieurs mois ; de la formation à la demande et à son rythme au cours avec forum d’échange, ce qui impose une synchronisation entre élèves et professeurs, voire au cours « mentoré » avec des points réguliers avec un professeur attitré ; du cours gratuit à la formation diplômante, etc. Cela permet d’ailleurs à chacun d’y trouver son compte. Quel que soit le format, les Mooc sont adaptés à ceux qui sont particulièrement autonomes et aiment apprendre à leur rythme.
Est-ce réaliste de se former en data science via des Mooc ? Une chose est sûre, c’est une excellente façon de situer son niveau de connaissances dans un domaine donné. Stephan Clémençon, responsable du mastère spécialisé (MS) Big Data à Télécom Paris, explique d’ailleurs que « valider notre Mooc Fondamentaux pour le Big Data est un des prérequis pour prétendre accéder au MS Big Data ou au MS Intelligence artificielle. Cela permet notamment de vérifier son niveau en calcul scientifique, en statistiques, probabilité ou en programmation en Python. Cela peut aussi permettre à quelqu’un qui a fait de bonnes études scientifiques de se remettre au goût du jour en quelques mois. C’est d’autant plus important pour ceux qui envisagent une reconversion. »
Un bon moyen de s’auto-évaluer
Suivre un Mooc est effectivement un bon moyen de se rendre compte si la reconversion rêvée est réaliste ou non, comme nous le raconte ce data scientist chez RTE qui a vite réalisé que sa formation initiale, bien que prestigieuse (École des Ponts ParisTech avec une 3e année en master Énergies renouvelables) ne lui ouvrirait pas les portes du métier dont il rêvait – la modélisation pour concevoir des équipements pour les énergies renouvelables comme les éoliennes -, notamment en raison de fortes restructurations du secteur. « En même temps que j’en prenais conscience, j’étais très tenté par ce que me racontaient mes copains de promo qui avaient à l’époque choisi le master MVA en 3e année, raconte-t-il. J’étais, pour ma part, devenu référent technique des innovations dans l’éolien à l’Agence de l’environnement et de la maîtrise de l’énergie (Ademe), où je gérais des projets innovants supervisés par l’agence, sans faire de recherche. J’y entendais aussi parler de maintenance prédictive, de jumeaux numériques. Cela me donnait très envie mais je savais qu’il me manquait les compétences en machine learning. »
Le jeune diplômé commence par se tester : « Pendant un an et demi, j’ai suivi plusieurs Mooc de machine learning sélectionnés sur les conseils de mes amis, ceux d’initiation au machine learning d’Andrew Ng, sur Coursera, et de Statistical learning de Robert Tibshirani, de l’université Stanford, ou Python 3 d’INRIA et de l’université Côte d’Azur. J’ai pu toucher du doigt les premiers concepts de machine learning, j’ai vu que ça me plaisait, que je m’y voyais bien, et que j’assimilais rapidement. Le soir, je regardais les vidéos tout en faisant la cuisine ou en mangeant, j’allais parfois vérifier certains points sur les scripts. J’ai surtout eu besoin de travailler les exercices de code les week-end, c’est aussi ce qui permet de voir qu’on a assimilé ou pas. Mais au total, cela ne m’a pas pris excessivement de temps, par exemple sept semaines pour celui de machine learning de Coursera, prévu en onze semaines. » Le jeune homme, célibataire, reconnaît néanmoins qu’il dort peu et travaille sans problème entre 23 h et 1 h du matin. Sans oublier qu’il n’est sorti de l’école que depuis un an et demi, et qu’il a gardé quelques réflexes mathématiques. « Pour autant, je ne pense pas être un cas, assure-t-il. Des ingénieurs d’écoles moins prestigieuses, mais avec un bon socle théorique, doivent être capables de suivre ce type de Mooc sans trop de problèmes. »
Se reconvertir… à condition de s’investir
Pour d’autres, retourner sur les bancs de l’école a été bien plus douloureux. Plus les études sont loin, plus il est difficile de se remettre à ces apprentissages théoriques astreignants. « Le Mooc Parcours data scientist d’OpenClassroom m’a pris un an et demi, comme aux deux collègues qui l’ont suivi en même temps que moi, reconnaît Daniel Jouany, architecte SI et data scientist à la MAIF, qui avait déjà travaillé vingt ans, et n’en était pourtant pas à son premier Mooc. Le plus difficile est de tenir dans la durée, de ne pas s’essouffler. Il faut dès le départ trouver son rythme, car c’est difficile à mener de front avec une activité professionnelle et une vie de famille. » Concrètement, pour suivre les 350 heures de cours, les 3 salariés en reconversion avaient une journée de libre par semaine, à laquelle ils ajoutaient l’équivalent d’une autre journée de temps personnel. Outre l’accès aux contenus de la plateforme, chacun faisait un point hebdomadaire d’une heure par visioconférence avec son mentor pour suivre son avancement, être aiguillé dans les contenus à explorer et aidé dans la réalisation des 6 à 7 projets. Ces projets sont des sortes de travaux pratiques qui permettent de mettre à profit les cours et de manier les techniques apprises, qu’il s’agisse de description de données, de régression, de traitement d’images, etc. Ils sont validés par une soutenance devant un des mentors de la plateforme : 20 à 25 minutes de présentation en visioconférence sur le code livré au préalable (un mini mémoire pour certains), suivi de 10 à 15 minutes de questions/réponses. Autant dire que dans ce format-là, un Mooc est un véritable enseignement.
« La première condition pour réussir ce type de Mooc, c’est d’en avoir vraiment envie, car il faut reconnaître qu’à 45 ans, j’avais totalement oublié mes cours d’algèbre linéaire ou de probabilités, explique le titulaire de l’équivalent d’un master 1. Mais il faut tenter, ne pas avoir peur de se remettre en question, d’échouer. Et pas forcément de s’attacher aux résultats, qui peuvent toujours être améliorés, mais plutôt tenter d’acquérir les compétences. » Comme il le souligne, c’est aussi un bon début car l’autoformation est la règle pour un data scientist dont les compétences évoluent très vite. Il faut sans cesse lire des publications théoriques, aller sur des sites de data science comme Medium, Toward Data Science, Analytics Vidhya, Kaggle, etc. pour rester à la page.
Voire s’autoformer
Certains parviennent à se reconvertir seuls grâce aux seuls Mooc. Mais c’est loin d’être une sinécure, ni une généralité. « En 2016, en environ un an, j’ai enchaîné les 5 cours d’un mois du Mooc Spécialisation Big Data de Coursera, qui comportait aussi un projet d’un mois et demi autour d’un cas concret, et des webinaires de MongoDB sur les bases de données NoSQL (pendant environ 4 mois), le tout en parallèle de mon activité professionnelle, raconte Gilles Rouard, aujourd’hui administrateur Hadoop à la BNP, qui s’est reconverti tant par envie que par nécessité pour maintenir son employabilité. C’est un boulot monstrueux, un énorme investissement personnel… Cela me prenait 15 à 20 heures par semaine, je faisais ça tout le week-end ou entre 21 heures et 2 heures du matin. Je n’avais plus de vie à côté… J’ai failli abandonner deux fois. » Cet informaticien, ingénieur universitaire en systèmes électroniques, avoue toutefois avoir été enchanté par ce Mooc. « Sans prétendre être expert, cela m’a donné une bonne vision globale du Big Data et de la Data Science, du cluster Hadoop au machine learning, précise-t-il. Chaque semaine, le Mooc abordait une nouvelle thématique avec une dizaine de vidéos en anglais de 3 à 15 minutes à visionner. Concrètement, entre les termes à aller vérifier sur Wikipedia, les notes à prendre avec copies d’écran, il me fallait 45 minutes de travail pour bien intégrer une vidéo de 15 minutes, et être capable de répondre aux quiz, puis de faire les exercices de programmation (ce qui suppose de maîtriser Python), condition sine qua non pour être certifié. Et mieux vaux faire les exercices à la fin du cours pour espérer avoir la note maximale, suivre le rythme soutenu et surtout ne pas prendre de retard. »
Il fait aussi remarquer qu’il faut avoir une webcam pour être certifié, et qu’un PC avec 16 Go de RAM est le minimum pour pouvoir démarrer un cluster Hadoop sur un serveur virtuel afin de faire les exercices proposés. Autonome de nature, il affirme ne pas s’être senti seul, sachant qu’il y a si besoin des forums entre participants dans lesquels on peut aussi poser des questions aux professeurs. « Je me suis toujours autoformé avec des bouquins, reconnaît-il. C’est indispensable en informatique dans la technique. Je continue avec le Big Data. Le sujet est tellement vaste que je dois creuser chez moi tous les problèmes que j’aborde au travail. »
Et après ?
Ces formations personnelles sont-elles reconnues dans le monde professionnel ? L’idéal est de les faire dans le cadre d’une évolution accompagnée par son entreprise, comme a pu le faire Daniel Jouany, à la MAIF. « J’étais architecte SI depuis une dizaine d’années dans une équipe très data, je le suis toujours, sur des projets tous en lien avec la data science désormais, et j’ai aussi une activité de data scientist, raconte-t-il. Quant à mes collègues, ils ont intégrés des postes de data scientists ouverts. » Lorsqu’on se forme seul, c’est loin d’être aussi facile. Décrocher des entretiens grâce à ces nouvelles compétences est une chose, obtenir un travail en est une autre : le manque d’expérience est souvent reproché à ces professionnels volontaires autoformés. Gilles Rouard en garde un souvenir cuisant : « Ils veulent tous qu’on justifie de deux à trois ans d’expérience ! Que ce soit les sociétés de service ou les clients finaux. J’ai passé dix entretiens en un mois et demi, dont un seul au cours duquel mes compétences techniques ont été analysées. » Il est finalement parvenu, par cooptation, à intégrer une société de service qui a mesuré son effort d’autoformation, et il a réussi, non sans mal, à travailler dans le Big Data, comme il le souhaitait.
Même avec un bagage plus solide, comme celui de cet ingénieur des Ponts ParisTech, le discours est identique : manque d’expérience ! « Voyant le dynamisme dans la data science, les changements de programme dans les écoles d’ingénieurs intégrant de plus en plus de statistiques, informatique et machine learning, pour ne pas rater ce train en marche, j’ai préféré mettre toutes les chances de mon côté et suivre à nouveau un master (le master Statistique de Sorbonne Université, très théorique avec une ouverture sur la data, dans le cadre duquel il décroche un stage aboutissant à un CDI) pour avoir plus de légitimité », reconnaît le data scientist, désormais en conception de nouveaux outils IA, comme il en rêvait. Il a pu mesurer la différence : « Les Mooc sont des ersatz théoriques qui n’ont vraiment rien à voir avec l’enseignement complet d’un master », juge-t-il.