
DATA ANALYTICS POST : De quoi parle-t-on ?
⏱ 4 min[vc_row][vc_column][vc_column_text]Dans la sphère industrielle, on rêve de mettre à profit du machine learning, du deep learning ou du data mining en utilisant des data lakes. Dans le monde de la recherche, on améliore des méthodes de traitement d’images, de reconnaissance de forme, d’apprentissage ou de vision par ordinateur. Les gouvernements, quant à eux, investissent dans l’intelligence artificielle pour ne pas rater la révolution du numérique. Et les étudiants ? Ils rêvent de devenir data scientists ou knowledge engineers ! Pourtant, ils parlent tous de la même chose…
“Data is the new oil » : là-dessus, tout le monde est d’accord. Tout comme le fait que la révolution en cours est le fruit du couplage entre les masses de données auxquelles nous avons aujourd’hui accès, des capacités de calcul et de stockage qui ont, elles aussi, explosé et des algorithmes plus ou moins innovants. Le résultat ? Chacun en mesure déjà plus ou moins les conséquences : les domaines impactés sont légion, de la finance à la relation client en passant par la santé et la médecine, le véhicule autonome, l’énergie ou l’éducation. Les agents virtuels (chat-bot) dialoguent de mieux en mieux, la traduction automatique gagne en qualité, on pilote des drones par la pensée… A la clé de ces développements tous azimuts, la promesse de systèmes automatisés d’analyse d’imagerie médicale pour détecter des tumeurs, pour lâcher le volant de nos voitures, analyser automatiquement l’énorme jurisprudence des avocats, limiter les risques lors de l’octroi d’un prêt bancaire, etc.
Les algos aussi suivent la mode
Ce qui compte dans tout cela, ce sont d’abord les données, ce que certains appellent le « carburant » pour poursuivre la métaphore et la façon de les traiter, avec quels algorithmes et quels modèles mathématiques. Ces méthodes mathématiques ne cessent d’évoluer. Prenons l’exemple de la vision par ordinateur qui permet à une machine d’analyser, de traiter et de comprendre des images, une fonction utile autant à l’industrie, à la recherche qu’à la robotique. Depuis les années 1990, elles ont changé tous les cinq ans environ. Elles sont passées de modélisations géométriques pour faire de la reconstitution 3D à partir de diverses images à des méthodes variationnelles et d’optimisation (fin des années 1990) capables de supprimer des objets dans des images jusqu’à des méthodes d’apprentissage statistique vers 2007, de deep learning (apprentissage profond) dès 2012 dans le but d’égaler nos capacités de vision. Aujourd’hui, ce sont les réseaux de neurones profonds qui sont mis à profit dans l’idée, cette fois, de dépasser nos capacités visuelles. Ce qui permettra probablement d’analyser des images médicales mieux qu’un radiologue pour reprendre cet exemple.
Pour autant les fondamentaux scientifiques changent peu et existent souvent depuis des décennies. Ils sont surtout revisités grâce aux puissances de calcul (la barre du pétaflops -1015 opérations par seconde – est dépassée depuis bientôt 10 ans) et aux masses de données désormais disponibles (90 % des données qui circulent sur internet aujourd’hui n’existaient pas il y a deux ans). « L’intelligence artificielle », terme employé depuis 1956 au workshop de Darmouth College par les pionniers autour de John McCarthy, nait depuis 60 ans à la convergence de théories mathématiques et d’algorithmes appliqués à des données. Peu importe les modes lexicales : big data un temps, data science, intelligence artificielle ou, aujourd’hui, machine learning. Ainsi peu de gens misaient sur les réseaux de neurones il y a seulement dix ans. Ce modèle mathématique date pourtant de 1943 (McCulloch et Pitts). Remis au goût du jour notamment grâce aux travaux du français Yann Le Cun en 2012 avec les réseaux neuronaux convolutifs, qui sait combien de temps, ils seront en haut de l’affiche. Avant de céder la place à une autre théorie prometteuse. Comme l’ont été en leurs temps les systèmes experts dans les années 1960. Autrement dit, les travaux des 5 300 chercheurs français en intelligence artificielle que la stratégie nationale #France IA a répertoriés fin mars 2017, sont fondamentaux qu’ils soient dans l’air du temps ou non. Ils gagneraient surtout à hybrider leurs approches : « à mettre des symboles dans les neurones et des neurones dans les symboles » comme disent certains pour signifier que les deux grandes approches théoriques (symbolique et apprenante) mériteraient d’être étudiées de concert.
Objectif : répondre au problème posé
Car, l’objectif à partager est commun : c’est la capacité de ces formidables systèmes informatiques à traiter rapidement ces volumes multisources faramineux de données pour apporter de la connaissance ou un service pertinent ou innovant aussi bien ou mieux que l’humain. Pour cela, ils doivent, avant tout, répondre à un problème posé, avec un résultat de qualité et un taux d’erreur minime. Or les problèmes concrets que cherchent à résoudre la plupart des entreprises concernent des détections d’anomalies, de la maintenance prédictive, une garantie de niveau de service, de la planification, des aides à la décision, une optimisation d’une chaîne de production… Et les méthodes, les algorithmes qui permettent d’y parvenir ne font pas forcément appel au deep learning aussi populaire soit-il. Ils vont de la fouille de données à son prétraitement, sa représentation (par exemple vectorielle), parfois à l’utilisation de l’apprentissage ou de règles de décision lorsqu’il s’agit de faire des prédictions, comme le font les moteurs de recommandation (voir notre infographie). Toutes ces méthodes sont performantes si elles reposent sur des données d’une qualité robuste. Il n’y a pas de solution miracle mais des solutions en adéquation avec chaque problème.
Et force est de constater que même si tout le monde revendique l’utilisation d’algorithmes, d’intelligence artificielle et autre machine learning, mis à part les spécialistes et les géants du web (les fameux GAFA*), la plupart des initiatives des grandes entreprises sur ces sujets restent des expérimentations. Pour aller au-delà, il serait judicieux de lancer des projets de grande envergure, par exemple sur des plateformes mutualisées de données métiers. C’est ce qui est prévu dans la stratégie nationale #France IA. Enfin, beaucoup reste à faire côté formation à ces nouveaux métiers de développeurs informatiques intégrateurs d’intelligence artificielle, de spécialistes « métier » capables d’organiser le problème à résoudre selon les techniques existantes, de chefs de projets… Formation initiale et tout au long de la vie. Car même si le niveau de formation sur ces sujets en France est considéré comme remarquable par tous les acteurs économiques, français ou étrangers, il peut être amélioré. Ce sera le sujet de notre dossier le mois prochain.[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
Isabelle Bellin, RÉDACTRICE EN CHEF
*Google, Apple, Facebook, Amazon…
Pour en savoir plus
Infographie : « La donnée dans tous ses états »[/vc_column_text][/vc_column][/vc_row]