Les réseaux de neurones impulsionnels : plus près de la réalité biologique
⏱ 5 minLes réseaux de neurones impulsionnels arrivent ! Plus proches de la réalité biologique, ils sont potentiellement très efficaces au plan énergétique. Première partie de ce dossier : du vivant au modèle.
Ces derniers temps, une nouvelle catégorie de réseaux de neurones artificiels fait parler d’elle : les réseaux de neurones impulsionnels, en anglais les « Spiking Neural Networks » (SNN). Ils revendiquent une plus grande proximité avec la réalité biologique, car dans notre système nerveux, l’information est véhiculée entre les neurones essentiellement par des impulsions, des « spikes ». En français, le biologiste dit « potentiel d’action », parfois « influx nerveux ». Conséquence majeure : nos neurones consomment un peu d’énergie au cours de ces potentiels d’action, qui durent typiquement une à deux millisecondes… et presque rien le reste du temps. Et c’est pour cela, entre autres, que notre cerveau ne consomme qu’une vingtaine de watts.
Informatique et neurosciences
Parce qu’ils sont plus proches de la réalité biologique, les réseaux de neurones impulsionnels intéressent à la fois des chercheurs en intelligence artificielle, qui y voient une solution pour réaliser des modèles moins énergivores, et des chercheurs en neurosciences, pour qui ils représentent un outil de modélisation de la réalité biologique qu’ils étudient : le fonctionnement des véritables neurones et de leurs réseaux. Les chercheurs de ces deux communautés inventent et améliorent des modèles de réseaux de neurones impulsionnels avec des agendas différents. Les uns cherchent à cerner la réalité biologique, tandis que les autres visent l’efficacité.
Pierre Yger est chercheur Inserm à l’Institut de la Vision. Il développe des modèles de réseaux de neurones qui restituent au mieux le fonctionnement de certaines régions de notre système nerveux, comme la rétine ou le cortex visuel. Les réseaux de neurones classiques de l’IA sont à ses yeux des approximations très grossières de la réalité biologique. « Ces réseaux simplifient beaucoup de choses, estime le chercheur. Pour commencer, ils mettent de côté le rôle de la temporalité dans le fonctionnement du système nerveux. Par exemple, quand une synapse reçoit une série rapprochée d’impulsions de son neurone afférent, son efficacité diminue. C’est ce que l’on appelle la « fatigue synaptique ». Plus généralement, on sait que l’ordre dans lequel des neurones proches sont excités est porteur d’information… »
La géométrie du neurone
Ce n’est pas tout. « Une autre énorme simplification consiste à considérer les neurones comme ponctuels, ajoute Pierre Yger. On fait comme si toutes les synapses avaient la même influence sur l’état du neurone. La plupart des modèles font abstraction de la géométrie du neurone, qui est d’ailleurs très variable. » Les neurones sont des cellules constituées d’un corps cellulaire, ou soma, et de prolongements plus ou moins touffus. D’un côté, un certain nombre de dendrites, plus ou moins arborescentes, vont en quelque sorte « chercher » l’information auprès de neurones en « amont », plus ou moins loin, avec lesquels ils sont en contact via des synapses. De l’autre, un unique axone, plus ou moins long et arborescent, entre en contact avec les dendrites d’autres neurones via des synapses. Chaque neurone est typiquement en contact avec d’autres neurones via des milliers de synapses.
Autre réalité oubliée dans la plupart des modèles : « Il existe deux grands types de neurones : les neurones excitateurs et les neurones inhibiteurs, indique Pierre Yger. Ces derniers sont d’ailleurs plus difficiles à étudier, donc moins compris. » Les synapses que leurs axones établissent avec des neurones en « aval » sont inhibitrices, elles contrarient l’effet des synapses excitatrices et retardent donc la survenue d’un « spike » chez ces neurones.
Une modélisation proposée en 1907
« La première tentative pour modéliser le fonctionnement du neurone remonte au début du XXe siècle, rappelle Pierre Yger. Le modèle proposé par Louis Lapique¹, en 1907, repose sur le principe « intègre-et-tire » (« Integrate-and-Fire » en anglais) ». Modèle qui présume qu’un neurone additionne en quelque sorte l’effet de toutes les impulsions captées par ses synapses, où qu’elles se situent dans les arborescences dendritiques, et qu’il déclenche un potentiel d’action lorsqu’un certain seuil est dépassé. On emploie souvent pour le présenter l’image de la baignoire qui déborde…
Par la suite, une meilleure compréhension des mécanismes physico-chimiques sous-jacents a permis d’élaborer des modèles plus réalistes, plus proches de la réalité biologique. Le plus cité est le modèle de Hodgkin et Huxley, publié² en 1952 (et qui leur a valu un prix Nobel en 1963). « Depuis, indique Pierre Yger, on a cherché à rendre compte de la topographie du neurone, de ce qui se passe tout au long des dendrites, où les synapses excitatrices et inhibitrices se contrarient localement. On a proposé des modèles « morphologiques« tenant compte de cette complexité. Wilfrid Rall, en 1957, propose³ ainsi sa « théorie du câble« , une première tentative de rendre compte de ce qui se passe le long des arborescences dendritiques. » Du neurone ponctuel, on passe ainsi à des modèles qui subdivisent le neurone en compartiments, ce que Wilfrid Rall lui-même fait4 dès 1964.
La rétropropagation du gradient d’erreur
Les réseaux de neurones utilisés en IA sont beaucoup plus simples, mais ils sont si efficaces qu’ils sont devenus le porte-drapeau de l’intelligence artificielle. Ils doivent ce succès en grande partie à un mécanisme d’apprentissage décrit dans les années 1980 : la « rétropropagation du gradient d’erreur », plus connue sous sa désignation anglo-saxonne : « backpropagation ». C’est elle qui a permis de faire un pas de géant dans l’apprentissage supervisé. « Mais jusqu’à présent, on n’a pas trouvé trace de cette rétropropagation dans notre cerveau, explique Timothée Masquelier, chercheur CNRS, responsable de l’équipe NeuroIA au CerCo (Centre de recherche Cerveau et Cognition, CNRS – université de Toulouse 3). »
« La communauté scientifique de l’IA est d’ailleurs divisée à ce sujet, ajoute le chercheur. Une minorité, mais qui comprend notamment Geoffrey Hinton, l’un des inventeurs de la rétropropagation, considère qu’il doit en exister un équivalent ou substitut dans les réseaux de neurones biologiques, que l’on n’aurait pas encore compris. Mais la majorité considère plutôt que notre système nerveux apprend selon d’autres modalités. »
De fait, explique Timothée Masquelier, on connaît un mécanisme biologique, la « plasticité fonction du temps d’occurrence des impulsions » (en anglais : « spike-timing-dependent plasticity », STDP), qui modifie le poids des synapses en fonction du timing de déclenchement des potentiels d’action dans les neurones pré- et post-synaptiques. « Lorsqu’un « spike« se produit dans un neurone, les synapses avec les neurones afférents qui l’ont eux-mêmes stimulé avec leur propre « spike« , et qui sont donc en quelque sorte responsables de cet événement, sont renforcées, tandis que celles qui n’ont pas participé à l’événement sont déprimées. » Mais cette STDP n’est pas un concurrent sérieux de la rétropropagation. « Ce n’est pas un mécanisme d’apprentissage aussi performant que la rétropropagation, affirme le chercheur. Des réseaux de neurones impulsionnels mettant en œuvre la STDP permettent d’apprendre des motifs fréquents dans les données, mais pas forcément ceux qui sont pertinents pour résoudre une tâche donnée. C’est vraisemblablement l’une des façons d’apprendre de notre système nerveux, mais certainement pas la seule. »
Des puces ultra-sobres
Mais on n’est jamais à l’abri d’une bonne nouvelle. « Récemment, indique Timothée Masquelier, un nouveau formalisme5 a été introduit, qui semble promettre une solution pour donner aux SNN une capacité d’apprentissage proche de ce que permet la rétropropagation : le « surrogate gradient learning » (« apprentissage par gradient de substitution »). Cela semble prometteur, mais il est encore tôt pour savoir quel sera le vrai potentiel de cette approche. »
Des SNN théoriquement efficaces n’intéresseront vraiment la communauté de l’IA que s’ils retrouvent cette efficacité dans la pratique. Or un SNN simulé sur un ordinateur classique, ou même une configuration optimisée pour le deep learning, perd tout son intérêt. Le SNN n’est perçu comme une alternative prometteuse pour l’IA, notamment en termes d’efficacité énergétique, que parce que des idées fleurissent pour réaliser des puces ad hoc ultra-sobres, sur lesquelles l’information est réellement portée par d’infimes impulsions électriques. Un sujet que nous développerons prochainement…
Notes
1. Louis Lapique, Recherches quantitatives sur l’excitation électrique des nerfs traitée comme une polarisation, Société de Biologie, 1907.
2. A. L. Hodgkin, A. F. Huxley, “A Quantitative Description of Membrane Current and its Application to Conduction and Excitation in Nerve”, J. Physiol., 1952.
3. Wilfrid Rall, “Membrane Time Constant of Motoneurons”, Science, 1957. doi.org/10.1126/science.126.3271.454
4. Wilfrid Rall, “Theoretical Significance of Dendritic Trees for Neuronal Input-Output Relations”, in Neural Theory and Modeling, Stanford Univ. Press, 1964.
5. Emre Neftci et al., “Surrogate Gradient Learning in Spiking Neural Networks”, in IEEE Signal Processing Magazine, 2019. doi.org/10.1109/MSP.2019.2931595