Les réseaux de neurones : toute une histoire et tout un art !
⏱ 8 minLes réseaux de neurones n’ont pas toujours été à la mode, loin de là. Françoise Soulié-Fogelman, une des actrices majeures de leur développement en France, nous raconte comment, dans les années 1980, une centaine de chercheurs qui appréciaient beaucoup les sports d’hiver et la randonnée les ont redécouverts… Avant qu’ils ne retombent dans l’oubli. Et réapparaissent.
Après un premier hiver de l’IA, entre le début des années 1970 et celui des années 1980, les réseaux de neurones connaissent un renouveau. Ils réapparaissent sur le devant de la scène à partir de différentes disciplines. Avec un point commun. Lequel ?
Françoise Soulié-Fogelman : Le renouveau des réseaux de neurones n’est, effectivement, pas du tout à mettre au crédit d’une science en particulier, notamment pas à celui de la communauté mathématique. Cette redécouverte est due à une communauté de chercheurs, tous de formation très solide, qui avaient pour point commun d’être en marge de leurs disciplines… Ils en avaient analysé les limites et cherchaient de nouveaux outils pour avancer autrement, pour répondre à leur problématique propre, chacun dans son domaine. Dans nos échanges, on ne parlait d’ailleurs pas, au début, de réseau de neurones mais de « réseaux d’automates », des objets en interaction capables de s’auto-organiser. On n’était même pas très au fait de la littérature sur les réseaux de neurones comme le Neocognitron du japonais Kunihiko Fukushima (1980), un réseau de neurones artificiels inspiré de la biologie et doté de capacités d’apprentissage, plus complexe que le Perceptron de Frank Rosenblatt (1955) ou les cartes auto-organisatrices (ou SOM pour Self-Organizing Map) du Finlandais Teuvo Kohonen (1984). Pour ma part, j’avais développé, à partir de 1980, un modèle d’automates à base de mathématiques discrètes après mes recherches en économie théorique. J’ai été invitée à le présenter en 1981 lors du colloque de Cerisy-la-Salle (Manche) intitulé « L’auto-organisation, de la physique au politique », un titre qui en dit long sur l’interdisciplinarité du sujet. Il y avait là des personnalités d’horizons très divers comme Jean-Pierre Dupuy (l’organisateur), Henri Atlan, Cornelius Castoriadis, Edgar Morin, René Girard, Isabelle Stengers, Francisco Varela ou Roger Guesnerie (avec qui j’avais publié mes travaux en économie théorique).
Quand cette interdisciplinarité est-elle devenue internationale ?
F.S.-F. : Pour ma part, à partir d’août 1982, lors d’une école d’été à Aspen (Colorado), organisée à l’occasion de la sortie d’un article majeur de John Hopfield [1] physicien à l’université Caltech et aux laboratoires Bell. Cela a été un moment clé : l’embryon d’une nouvelle communauté de chercheurs. C’est là que les communautés française et américaine se sont croisées pour la première fois. John Hopfield, spécialiste des verres de spin (des matériaux bien connus des physiciens) venait de publier un article (qui devait devenir son article le plus célèbre, un block-busteravec plus de 20 000 citations aujourd’hui) sur une mémoire associative, basée sur un réseau de neurones avec un modèle de « verres de spin ». Il y avait donc là beaucoup de physiciens, mais aussi des biologistes, des informaticiens, des psychologues, etc. quasiment pas de mathématiciens. Il y avait des chercheurs convaincus de longue date, comme Geoffrey Hinton, un psychologue qui avait malgré tout poursuivi ses travaux dans les années 1970 après sa thèse sur les réseaux de neurones publiée en 1972, un an avant le rapport Lighthill, qui pointait les faibles avancées du domaine contribuant au premier hiver de l’IA. Il y a avait aussi le physicien Terry Sejnowski, le physicien des hautes énergies Stephen Wolfram [2], le physicien Bernardo Huberman et bien d’autres. Pendant environ un mois, on travaillait le matin, on randonnait l’après-midi… en discutant beaucoup de sciences (mais pas toujours) !
Les réseaux de neurones se seraient donc reconstruits autour de ces nouveaux liens assez improbables ?
F.S.-F. : Bien sûr ! C’est d’ailleurs après ce séjour à Aspen que Bernardo Huberman [3] m’a invitée à finir ma thèse d’État au Palo Alto Research Center (PARC) en 1984. Cela a également été la première visite aux États-Unis de mon jeune doctorant, Yann Le Cun, l’actuel directeur scientifique de la recherche en intelligence artificielle (IA) de Facebook, qui était venu vers moi en 1983 après avoir lu les actes du colloque de Cerisy-la-Salle. Alors ingénieur de l’ESIEE, il était décidé à travailler sur ces sujets sur lesquels il a persévéré ensuite contre vents et marées. À cette époque, je suis également devenue très amie avec Larry Jackel, physicien américain, qui venait de créer en 1985 une équipe de recherche sur les réseaux de neurones aux laboratoires Bell, à Holmdel [4]. Nous avons commencé à organiser des échanges de plus en plus nombreux, des écoles d’été, des colloques : moi dans les Alpes (Disordered Systems and Biological Organization, en mars 1985 [5], Neurocomputing, algorithms, architectures and applications [6], en février 1989), lui à Snowbird, une station de ski au-dessus de Salt Lake City, dans l’Utah. Grâce à ces rencontres régulières, une communauté d’une centaine de chercheurs s’est affirmée. Qui partageaient la passion du ski… Tous les ans, en avril, à partir de 1986, on se retrouvait à Snowbird, sur invitation. Il n’y avait pas d’actes mais ce colloque est rapidement devenu un incontournable. C’était une sorte de pré-NIPS, la célèbre conférence de machine learning (Neural Information Processing Systems [7] baptisée NeurIPS aujourd’hui. NIPS fut d’ailleurs créée à Snowbird en 1986 et la première version eut lieu en 1987 ; par la suite, chacun présentait à Snowbird les articles qu’il soumettrait à NIPS. Cela a énormément contribué à nous souder. Les conférences avaient lieu le matin, on déjeunait, puis on filait sur les pistes. Les discussions se poursuivaient sur les télésièges… puis on se remettait au travail entre 18 h 30 et minuit, un verre à la main. Yann Le Cuna repris l’organisation en 2013 avec Yoshua Bengio, mais comme il n’aimait pas le ski, l’International Conference on Learning Representations [8] a quitté Snowbird, l’esprit a beaucoup changé (il y a maintenant 4 000 participants)… ça ne tient pas forcément à grand-chose.
Ces rencontres ont créé un véritable pont notamment entre la France et les États-Unis.
F.S.-F. : Oui, notamment aux laboratoires Bell, où s’était créée une équipe de rêve3 sur les réseaux de neurones, autour de Larry Jackel et John Denker, avec un financement conséquent. Cette équipe a embauché, outre Yann Le Cunen 1988, un autre de mes thésards, Léon Bottou en 1989 ainsi que Yoshua Bengio (aujourd’hui à la tête de la fameuse équipe MILA [9] à l’université de Montréal). Ils ont également recruté Vladimir Vapnik, un brillant Russe qui a apporté un cadre théorique à la théorie de l’apprentissage permettant de mieux comprendre le fonctionnement des réseaux de neurones, et qui a notamment donné naissance aux machines à vecteur de support (SVM). Même chose avec l’industrie et un certain nombre de chercheurs qui ont rejoint Facebook, Microsoft ou Google. Il faut dire que, de cette émulation, sont sortis d’excellents résultats très vite. Et la communauté s’est élargie. Dès 1987, lors de la première conférence IJCNN (International Joint Conference on Neural Networks), nous étions 1 000 chercheurs. Au début des années 1990, les résultats se multipliaient avec des systèmes impressionnants de reconnaissance d’images et de la parole. Exemple : grâce aux réseaux de convolution qui filtrent les images, réduisant le nombre d’entrées, et à leurs précurseurs, les réseaux neuronaux à retard temporel (ou TDNN pour Time Delay Neural Network), en un an, on obtenait les mêmes résultats en reconnaissance de la parole qu’en vingt ans de recherches.
Cela devait être une époque de rêve pour mener des recherches sur les réseaux de neurones ?
F.S.-F. : Oui et non… C’est mal vu de participer à la création d’une discipline, surtout en France. Toute ma vie universitaire, j’ai été critiquée par les matheux, par les statisticiens et même par les informaticiens qui défendaient l’IA symbolique, à base de règles, de Prolog, de systèmes experts et non de réseaux de neurones. Heureusement qu’on avait cette communauté internationale, qu’on se retrouvait à l’étranger et qu’on pouvait avancer ensemble. En moins de dix ans, j’ai fait soutenir une vingtaine de thèses, dont une seule a pu être financée par les organismes français habituels. Je devais aller à la pêche aux financements ailleurs qu’en France, où on me demandait de mettre un coup de peinture IA symbolique sur mes réseaux de neurones ! En fait, j’avais trois jobs : enseignante, chercheuse et chef d’entreprise pour payer mes étudiants, faire la comptabilité, trouver des aides, des financements européens. Même chose en Russie, où Vladimir Vapnik, tout comme le réseau de statisticiens russes dont il faisait partie, était rejeté par la communauté statistique « pure ». C’est d’ailleurs une des raisons pour lesquelles il a rejoint les États-Unis, qui, eux, ainsi que le Canada, ont dès cette époque ouvert les financements.
Pourquoi, à votre avis, ces innombrables succès scientifiques ne se sont-ils pas traduits à ce moment-là dans l’industrie ? Vous-même avez créé une start-up en 1991, Mimetics, pour faire de la reconnaissance de caractères (OCR) et jeté l’éponge dès 1993.
F.S.-F. : Ça ne pouvait pas marcher pour plusieurs raisons : les données n’étaient pas disponibles, les ordinateurs pas assez puissants non plus. Et faire fonctionner des réseaux de neurones était tout un art : deux personnes qui programmaient (« au piano » comme je dis souvent) n’aboutissaient pas au même résultat ! C’est toujours le cas d’ailleurs. Les réseaux de neurones, ça marche encore beaucoup par essai/erreur, donc par expérience, et grâce à un tas de « trucs ». Résultat : l’industrie n’était pas au niveau, les ingénieurs ne savaient pas programmer comme les thésards. Coder un réseau de neurones reste une gageure : il faut fixer un tas d’hyper-paramètres, par exemple les paramètres d’architecture comme le nombre de couches et de neurones par couche, le nombre d’itérations d’entraînement, les paramètres de régularisation… Même si la théorie de Vapnik a permis de mieux comprendre comment fixer des bornes pour ces paramètres, elles restent très larges, et entre les bornes, il faut tout essayer. Aujourd’hui les librairies open source, par exemple scikit-learn[10], facilitent énormément le travail, notamment en fournissant des initialisations des paramètres par défaut. Enfin, outre cette programmation de haute volée, le succès de ces méthodes est tributaire des données, notamment de leur préparation, du nettoyage, des aspects que l’on n’avait pas forcément bien mesurés dans les années 1990.
Les réseaux de neurones sont retombés quasiment dans l’oubli au début des années 1990, puis réapparus en 2012. Peuvent-ils disparaître à nouveau des radars, notamment pour des raisons éthiques ?
F.S.-F. : Effectivement, seuls quelques irréductibles comme Yoshua Bengio, Yann Le Cun, Geoffrey Hinton ou Léon Bottou ont persévéré pendant le second hiver de l’IA qui a duré une quinzaine d’années tout de même (en gros de 1998 à 2013 : le laboratoire de Bell Labs a disparu en 1995 et les chercheurs ont été licenciés). Ils ont eu beaucoup de difficultés pour mener leurs recherches et placer leurs publications, notamment entre 2000 et 2010. Mais ils ont bien fait ! Ils ont notamment approfondi les travaux sur les réseaux neuronaux convolutifs à la base des succès actuels de l’IA, à partir des travaux d’Alex Waibel[11] sur le TDNN. C’est Geoffrey Hinton qui a remis les réseaux de neurones en avant en 2012 quand il a participé à la compétition ImageNet pour tester la capacité des réseaux de neurones à faire de la reconnaissance d’images : grâce au travail de son étudiant en fin de thèse, Alex Krizhevsky, il a atteint un taux d’erreur de 16 % au lieu de 25 %[12]. Toute la communauté de la vision par ordinateur s’est alors jetée sur les réseaux de neurones !
Quant à savoir si l’histoire pourrait s’arrêter de nouveau, je ne le pense pas. Car les réseaux de neurones font partie d’un mouvement bien plus large, celui du machine learning qu’ils ont contribué à développer, avec le succès que l’on connaît aujourd’hui. Or on ne peut pas imaginer se passer du machine learning et de ses nombreux algorithmes ; les emprunts bancaires en dépendent, les campagnes marketing, tous les systèmes de recommandation, etc. Une chose est sûre : les réseaux de convolution sont les meilleurs devant toutes les autres techniques dès qu’il y a une notion de voisinage dans les données, donc pour toutes les tâches de perception (images, son, vidéo, texte, audio). Pour les autres tâches, d’autres techniques de machine learning sont exploitées partout dans l’industrie comme les forêts aléatoires , le gradient boosting [13], même si la simple régression logistique reste encore le modèle le plus largement employé.
Quels principaux problèmes posent-ils aujourd’hui ?
F.S.-F. : Le premier est qu’après avoir été entraînés avec toutes les difficultés déjà évoquées, ils deviennent des boîtes noires, dont on peut difficilement expliquer le fonctionnement. Pour un certain nombre de tâches, comme la recommandation d’un livre, cela ne pose pas de problème. Pour d’autres, comme le refus d’un emprunt, d’une place dans une école ou d’un diagnostic médical, l’explicabilité est indispensable. En revanche, les réseaux de neurones ne posent pas plus de problème éthique que tout autre algorithme de machine learning entraîné à partir de données. Ils posent avant tout le problème, générique, de représentativité des données. Il manque un cadre de réflexion là-dessus, à l’image de la théorie statistique de l’échantillonnage [14], qui garantit la représentativité d’un échantillon (sondage, plan d’expériences). L’IA dans l’industrie, c’est avant tout une question de données et non de modèle. Il est urgent de comprendre cela en France, réseaux de neurones ou pas ! C’est avant tout un travail d’informaticiens et de manipulation des données, pas de modèle algorithmique. L’ignorer pénalise l’industrie et contribue à dénaturer la réalité des métiers de la data science dont les compétences se répartissent autour de cette préparation et cette valorisation de la data.
Enfin, l’éthique devient un sujet central grâce aux travaux du AI High-Level Expert Group de la Commission européenne, dont je fais partie. Dans le document Ethics Guidelines for Trustworthy AI[15] nous proposons ainsi une liste de questions permettant d’évaluer de façon opérationnelle si une solution IA est digne de confiance. Comme pour le règlement RGPD, nous pensons que ces conditions seront très largement adoptées en Europe et dans le monde, garantissant une meilleure acceptabilité des solutions IA.
NOTES
[1]John J. Hopfield, “Neural networks and physical systems with emergent collective computational abilities. » Proceedings of the national academy of sciences, 79.8 (1982): 2554-2558. https://www.pnas.org/content/pnas/79/8/2554.full.pdf
[2]https://www.stephenwolfram.com/
[3]https://en.wikipedia.org/wiki/Bernardo_Huberman
[4]http://north-c.com/jackel-bio.htm
[5]https://link.springer.com/book/10.1007/978-3-642-82657-3#about
[6]https://www.amazon.fr/Neurocomputing-Algorithms-Architectures-Applications-Subseries/dp/3642761550
[7]https://en.wikipedia.org/wiki/Conference_on_Neural_Information_Processing_Systems
[8]https://en.wikipedia.org/wiki/International_Conference_on_Learning_Representations
[9]https://mila.quebec/en/person/bengio-yoshua/
[10]https://en.wikipedia.org/wiki/Scikit-learn
[11]https://en.wikipedia.org/wiki/Alex_Waibel
[12]https://en.wikipedia.org/wiki/ImageNet
[13]https://en.wikipedia.org/wiki/Gradient_boosting
[14]https://en.wikipedia.org/wiki/Sampling_(statistics)
[15]https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai
Propos recueillis par Isabelle Bellin