Formations en data science : l’embarras du choix !
⏱ 8 minMasters 1, Mastères Spécialisés 2, Mastère en sciences (MSc), certificats, filières d’écoles d’ingénieur, diplômes universitaires… les formations en sciences des données se sont multipliées ces dernières années. Si l’offre francilienne concentre les formations les plus réputées, de nombreuses écoles ou universités proposent des cursus avec une coloration plus ou moins forte en science des données. Tout dépend si vous êtes plutôt maths, informatique ou les deux, si vous visez plutôt une spécialisation en fin de cursus, un master pro ou recherche, une formation post-graduate…
Le métier de data scientist (spécialiste des données) est promis à un bel avenir. Sa finalité : l’aide à la décision à partir de l’exploitation de données afin d’en tirer des connaissances, de se poser de nouvelles questions, d’améliorer un service, d’augmenter la productivité … Sans oublier les questions posées par l’impact de ces solutions en termes d’éthique, de droit, de sociologie, etc. Le plan Big Data (2014) évaluait les besoins à plus de 130 000 d’ici à 2020 et le chiffre de 3 millions d’emplois est évoqué à l’échelle de l’Europe. En réalité, le data scientist peut avoir trois casquettes et exercer des métiers bien différents (résumés en mars dernier dans le cadre de la stratégie française en intelligence artificielle (IA) FranceIA) :
– Le concepteur de méthodes et d’algorithmes devra avoir une solide formation générale en maths (analyse, probabilités, statistiques, apprentissage, etc.), en informatique scientifique (algorithmique, calcul distribué, etc.) ainsi que des compétences en modélisation des données (par exemple en traitement du signal) ;
– L’intégrateur ou développeur informatique s’attèle à la mise en œuvre des algorithmes et des méthodes d’apprentissage, il doit faire face aux problèmes opérationnels et informatiques (infrastructures de données comme Hadoop, systèmes de gestion de base de données comme NoSQL, d’analyse y compris en temps réel, etc.) ;
– Le spécialiste métier ou utilisateur est expert dans la manipulation de ces outils et capable de comprendre le contexte d’utilisation des données (médical, marketing, transports, etc.) pour apporter une valeur ajoutée.
Coloration ou spécialisation ?
En quelques années, selon les recommandations du plan Big Data, les formations se sont multipliées, souvent sous cette bannière, la formule à la mode à l’époque. Les écoles ont intégré ces compétences en fin de cursus à des niveaux de compétence très différents : dans des écoles d’ingénieurs généralistes (Télécom ParisTech, Polytechnique, l’INP Grenoble, Centrale, Mines, Insa, etc.), des écoles spécialisées en statistiques comme ENSAE ParisTech ou l’ENSAI ou des écoles de commerce comme HEC 3. Parmi les formations, à proprement parler, en ingénierie des données, citons : Télécom ParisTech et Polytechnique 4 (X) qui se distinguent avec une formation approfondie proposée depuis peu respectivement en 2e et 3e année, ainsi que le double cursus X/HEC sur 2 ans – MSc Big data for business 5– ouvert cette année à 50 étudiants en 3e année de l’X ou HEC (à 50/50) et quelques étudiants étrangers, une première en Europe.
» Se former en sciences des données nécessite bien plus qu’un semestre en fin de cursus d’école d’ingénieur, c’est une formation à temps plein. Hors Télécom ParisTech et l’X, seul un cursus universitaire, si possible jusqu’au doctorat permet d’acquérir ces compétences. » Ludovic Denoyer, coresponsable du master DAC de l’Université Pierre et Marie Curie (UPMC)
Maths, informatique, les deux ?
Comment repérer les formations de qualité ? Elles sont surtout au niveau master, adossées à un environnement de recherche (des laboratoires et/ou des chaires) et à un écosystème industriel, ce qui permet d’adapter les enseignements au rythme des évolutions de la recherche et de l’industrie. Ce qui compte avant tout, c’est bien le lien avec les problèmes des entreprises ou avec les autres sciences. De tels masters existent à l’université et dans les grandes écoles : du plus réputé – le MVA 6 (Mathématiques, Vision, Apprentissage) de l’ENS Paris-Saclay (ex Cachan) qui fête ses 20 ans – aux nombreux masters qui ont récemment intégré ces enseignements ou se sont créés.
La plupart sont à dominante maths comme le spécialité M2 Statistique 7 de l’UPMC qui propose depuis 4 ans des cours en sciences des données, le parcours M2 Data Science 8 ouvert il y a 3 ans par l’X, Télécom Paris Tech et des partenaires tels que l’Université Paris-Sud, ou encore le certificat big data 9 de l’UPMC.
Certains masters sont à dominante informatique comme le master DAC 10 (Données, Apprentissage, Connaissances) de l’UPMC sur 4 semestres ou le Mastère Spécialisé Big Data 11 de Télécom ParisTech. Ce dernier forme des data scientist opérationnels en 16 mois intensifs y compris une thèse professionnelle (orientée sur les aspects techniques et la création de valeur pour l’entreprise) avec une ouverture sur les sciences économiques et sociales. Côté sciences humaines et sociales, le parcours M2 MASH 12 de Paris Dauphine a ouvert il y a 3 ans pour compléter le master MVA de l’ENS Paris-Saclay sur ces aspects : outre les cours en commun avec le MVA, une option apporte cette ouverture au second semestre. Certains masters sont très ouverts à l’international comme celui de Saint-Etienne, ou spécialisés par exemple aux techniques d’apprentissage automatique de la langue à Nantes, à la recherche de l’information à l’Université Paris-Sud ou aux données massives à Lille.
Une des clés de la formation (et de la recherche) en data science est dans le rapprochement de l’informatique et des mathématiques. Or les licences bidisciplinaires maths/info ne sont pas particulièrement orientées data, comme celle de l’UPMC, une université qui affiche sa volonté d’accroître cette offre d’enseignement en exploitant les données des différents domaines scientifiques de l’établissement (médecine, géologie, physique, chimie, biologie, océanographie ou encore humanités numériques). Dans la même veine, il devrait y avoir de plus en plus de Mastères Spécialisés comme celui qui ouvre à la rentrée entre l’École des Ponts ParisTech et Télécom ParisTech sur la Smart Mobility, une des rares formations en alternance.
» Les filières généralistes de data scientist ne sont pas la solution : il faut absolument redonner leur place aux sciences fondamentales de l’ingénieur et privilégier les phénomènes étudiés. Sans cette expertise, on ne saura bientôt plus traiter les données. Les data scientists devront être de plus en plus spécialisés dans une science ou un domaine. » Nicolas Vayatis, responsable du master MVA de l’ENS Paris-Saclay
À terme, la data science deviendra sûrement un enseignement de base auquel s’ajoutera une spécialisation en santé, en journalisme, en finance, en éducation ou dans l’industrie. Ces domaines d’applications, qui paraissent souvent moins attractifs aux étudiants que tout ce qui touche à internet, sont passionnants et concentrent de gros besoins, souvent mal identifiés. Ils demandent une expertise que les applications autour d’internet, qui se résument souvent à du big data, ne nécessitent pas forcément.
Master ou doctorat ?
Si intégrateurs et spécialistes métiers peuvent se contenter d’un bac+5, les concepteurs devront avoir un doctorat voire un post-doctorat, gage de créativité en R&D. Beaucoup d’entreprises cherchent désormais à recruter à ce niveau, notamment les startups qui ont besoin de machine learning. Si les 2/3 des étudiants de master MVA font une thèse (en machine learning, traitement d’images ou d’autres disciplines), ils ne sont qu’un tiers du master DAC et 20 % du master Data science. Sauf que les entreprises françaises n’ont pas encore fini leur transformation numérique et bon nombre de jeunes diplômés traversent encore souvent l’Atlantique. Pour autant, le gros des emplois est dans le consulting chez des industriels pour faire de la maintenance prédictive, améliorer la relation client (CRM) ou développer de nouveaux services. Les salaires sont conséquents, entre 45 000 et 55 000 euros annuels, souvent 20 à 30 % au-dessus des rémunérations des ingénieurs en sortie d’école ou des autres masters en informatique.
Isabelle BELLIN
Précisions sur les formations
1 Masters
Délivré par l’État, le grade de master est un des quatre grades de l’enseignement supérieur reconnus à l’échelle européenne. Il peut être attaché à l’obtention d’un diplôme ou d’un titre différent du master, mais de niveau équivalent (bac+5).
À bac+6, le Mastère Spécialisé (MS) est une formation professionnelle qui complète une formation initiale. Ce label est partagé par des grandes écoles d’ingénieurs et de management reconnues par l’État.
3 Master Big Data and Business Analytics d’HEC
HEC a lancé fin 2013 le master Big Data and Business Analytics pour les étudiants de MBA.
4 Formation approfondie en ingénierie des données de Polytechnique (X)
« Ce parcours d’approfondissement, en place depuis 2 ans, permet à nos futurs ingénieurs d’acquérir une formation en infrastructures de données, machine learning et IA. Plus de 80 étudiants l’ont choisi l’an dernier : un succès ! » Eric Moulines, professeur à l’X.
5 MSc Big data for business – double cursus X/HEC
« Dans ce double cursus, nous formons de futurs entrepreneurs qui pourront incuber leur startup à HEC et des consultants en data qui connaissent les outils et sont capables de réfléchir aux cas particuliers de chaque entreprise. Nous confrontons nos étudiants à de nombreuses études de cas et à des données concrètes. » Eric Moulines, professeur à l’X.
6 Master 2 MVA (Mathématiques, Vision, Apprentissage) de l’ENS Paris-Saclay
Ce master recherche accueille 120 étudiants en majorité issus des grandes écoles mais aussi des universitaires, parfois des ingénieurs en reconversion avec une volonté d’ouverture aux autres disciplines que maths et informatique. « Notre philosophie est de confronter nos étudiants au réel, les faire travailler sur des problèmes concrets et les données réelles de nos intervenants, tous des chercheurs de haut niveau, reconnus internationalement. Nous favorisons une culture de la modélisation des données sans privilégier de champ mathématique (analyse, proba, stats, géométrie…), sans chercher l’algorithme générique mais dans un esprit de mathématiques appliquées au traitement des données, des images et des signaux. » Nicolas Vayatis, responsable du MVA de l’ENS Paris-Saclay.
7 Spécialité M2 Statistique de l’Université Pierre et Marie Curie (UPMC)
« Nous formons des mathématiciens très solides sur les fondamentaux (statistique, analyse, optimisation) avec une expertise (1 semestre) sur les standards du traitement des données (machine learning, big data, données de grandes dimensions, hétérogènes, Python, R…). » Gérard Biau, professeur à l’UPMC.
8 Parcours M2 Data Science de l’X
Ce parcours M2 (pro ou recherche) bénéficie des chaires de recherche et d’enseignement autour des data sciences et du big data de l’X et de Télécom ParisTech. « Ouvert à 100 étudiants issus majoritairement de l’X, Télécom ParisTech ou de M1 maths, ce parcours est particulièrement équilibré en maths et informatique. Il met l’accent sur les infrastructures de données, le machine learning et l’IA avec une pédagogie qui fait la part belle aux projets, à l’implémentation, au learning by doing : certains cours sont assurés par des professionnels comme Wavestone ou des consultants d’Euritech (qui animent Deep learning meetup à Paris). » Eric Moulines, professeur à l’X.
9 Certificat big data de l’UPMC
« Ouvert depuis 3 ans à 15 à 20 étudiants en master de maths (que ce soit statistiques, probabilités, finances, maths pures, etc.), ces cours supplémentaires en sciences des données sont orientés autant maths qu’informatique. » Gérard Biau, professeur à l’UPMC.
10 Master DAC (Données, Apprentissage, Connaissances) de l’UPMC
« Créé il y a 3 ans, ce master forme 40 étudiants de M1 et autant de M2. Adossé à un département de recherche (DAPA) et au département d’informatique (LIP6), il forme des informaticiens forts en maths avec un enseignement orienté données et apprentissage (machine learning et apprentissage symbolique). La moitié de la formation consiste à programmer, traiter des données avec une part importante de deep learning. » Ludovic Denoyer, coresponsable du master DAC de l’UPMC.
11 Mastère Spécialisé Big Data de Télécom ParisTech
« Ce Mastère Spécialisé big data, créé il y a 4 ans, était le premier. Les cours sont assurés par nos nombreux enseignants-chercheurs et des industriels (grands groupes ou startups notamment issues de notre incubateur) qui ont l’habitude des grandes infrastructures comme Hadoop. L’enseignement est très interdisciplinaire autour de maths appliqués, d’informatique et de sciences économiques et sociales. En parallèle des cours, les étudiants mènent beaucoup de projets proposés par des entreprises et abordent tant les aspects collecte, stockage et analyse de données que le modèle économique et les aspects juridiques. Nous accueillons 60 étudiants issus d’écoles d’ingénieurs, de M2 en maths ou informatique, parfois d’écoles de commerce : un tiers cherchent une spécialisation, un tiers se remettent aux études après 2 à 5 ans en entreprise, un petit tiers sont en reconversion. » Stephan Clémençon, responsable du Mastère Spécialisé Big Data (Télécom ParisTech).
Enquête sur les 4 premières promotions.
12 Parcours M2 MASH de Paris Dauphine
Ce master accueille une trentaine d’étudiants issus pour moitié de cursus mathématiques de Dauphine (filière Mathématiques de la décision) et pour moitié d’origines diverses pour leur fournir une formation solide en apprentissage statistique et une ouverture sur les applications à l’économie numérique et aux sciences humaines au sens large : « Ce mélange sciences humaines et sciences des données a beaucoup de succès. Ce master est à vocation professionnelle : les options du second semestre sont consacrées à des sujets comme le marketing digital, l’évaluation des politiques publiques, la santé, le journalisme, la finance, la protection de la vie privée, les enjeux de confidentialité des données… » Alexandre d’Aspremont, enseignant à l’ENS.
Ailleurs sur le web
Data science : définition, secteurs d’application et compétences requises pour la science des données
Voici les 13 compétences nécessaires pour devenir data scientist
Devenir data-scientist : les formations et les MOOC Big Data
Le « data scientist », nouvelle coqueluche des recruteurs (Le Monde, 12/05/2017)
« Data Scientists » : le guide des métiers de la science des données