SCIENCESTECHNOCULTURE
Timeline_DAP-27
2012
2012

Retour en grâce des réseaux neuronaux convolutifs

Ils renouvellent considérablement l’intérêt pour l’intelligence artificielle et le deep learning.

Les travaux sur des réseaux convolutifs et algorithmes  de rétropopagation, notamment de Yann LeCun (1998), donnent naissance à de nombreuses applications en reconnaissance d’images et vidéo, pour les systèmes de recommandation et le traitement du langage naturel. Beaucoup d’équipes dans divers domaines de recherche appliquée les utilisent désormais. Ils sont basés sur des réseaux de neurones profonds de plusieurs milliers de neurones sur plusieurs dizaines de couches. En apprentissage automatique, un réseau de neurones convolutifs (ou réseau de neurones à convolution, ou CNN ou ConvNet) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte à ce qu’ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel. Le fonctionnement des CNN en est inspiré : il consiste en un empilage multicouche de perceptrons, dont le but est de prétraiter de petites quantités d’informations.

2010
2010

Le challenge d’ImageNet

Ce concours de reconnaissance visuelle d’objet par intelligence artificielle devient une référence.

Le challenge de reconnaissance visuelle à grande échelle d’ImageNet (ILSVCR) est un concours annuel de reconnaissance d’objet. Organisé par l’Université Stanford, l’Université Carnegie-Mellon, l’Université du Michigan et l’Université de Caroline du Nord à Chapel Hill, il est basé sur une énorme base de données d’images annotées, ImageNet, rassemblées par Fei Fei Li et ses collègues de l’université de Princetown depuis 2007. Leur but : aider le développement des logiciels de reconnaissance d’objet. Mis à disposition des chercheurs depuis 2009 par le Vision Lab de l’université de Stanford, ImageNet comporte près de 15 millions d’images soigneusement labellisées et décrites à la main et répertoriées en plusieurs milliers de classes d’images (chiens, chats, voitures…). L’ILSVRC permet aux chercheurs de comparer les progrès réalisés en matière de détection sur une plus grande variété d’objets. Il permet aussi de mesurer les progrès de la vision par ordinateur pour le classement d’images à grande échelle, afin de permettre l’extraction et l’annotation efficaces.

2007
2007

La complétion de matrices sous les feux de la rampe

Ce problème est l’un des plus étudiés en mathématiques, statistiques et machine learning grâce au challenge Netflix.

Pour améliorer son moteur de recommandation, la société Netflix met à contribution la communauté scientifique en organisant une compétition mettant en jeu un million de dollars. Les participants disposent de la matrice contenant les votes des clients (presque 500 000 utilisateurs et 17 000 films, mais seulement 1 % des valeurs renseignées), des données contextuelles sur les utilisateurs et sur les films et des informations temporelles sur ces données. Objectif : prédire pour chaque client, le vote final et améliorer les performances du moteur cinematch de Netflix de 10% (en termes d’erreur-type RMSE). Cela a permis de mettre en évidence tout l’intérêt de la complétion de matrices de faible rang. Le défi a été remporté, presque trois ans après son lancement, par l’équipe « BellKor’s Pragmatic Chaos ». Mais l’agrégat de modèles proposé s’est avéré beaucoup trop coûteux en temps et en énergie pour pouvoir être mis en production.

2006
2006

Les débuts du deep learning

Des réseaux neuronaux multicouches incluant une étape automatique d’apprentissage de la représentation des données.

Geoffrey Hinton, Simon Osindero et Yee-Whye Teh optimisent le fonctionnement des réseaux neuronaux multicouches (A Fast Learning Algorithm For Deep Belief Nets). Le concept du deep learning a été ensuite formalisé par Geoffrey Hinton en 2007 dans « Learning multiple layers of representation ». Il s’appuyait sur les travaux du français Yann LeCun (1989).

2001
2001

Random Forest, mieux que les arbres de décision

Puissant, ce modèle de machine learning est très utilisé aujourd’hui.

Méthode dite d’ensemble, cousine du boosting, les forêts d’arbres décisionnels (ou forêts aléatoires de l’anglais random forest classifier) ont été formellement proposées en 2001 par Leo Breiman et Adèle Cutler. Ils ont suivi les travaux précurseurs de Yali Amit et Donald Geman (1997) dans des problèmes de reconnaissance d’image.  Ces modèles font partie des techniques d’apprentissage automatique. L’algorithme des forêts d’arbres décisionnels effectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles de données légèrement différents. La base du calcul repose sur l’apprentissage par arbre de décision, mais l’agrégation de plusieurs arbres permet de rendre plus robuste l’estimation et améliore la performance observée sur chaque arbre individuellement.

1998
1998

Des réseaux neuronaux convolutifs

Quelques chercheurs dont LeCun et Bengio poursuivent leurs recherches dans cette voie malgré les critiques.

Yann LeCun, Yoshua Bengio et d’autres publient des articles sur l’application des réseaux neuronaux à la reconnaissance de l’écriture manuscrite et sur l’optimisation de la rétropropagation. Ils poursuivent les recherches sur les réseaux neuronaux, abandonnées par la plupart des équipes, suite à la parution du livre, très critique, de Marvin Minsky et Seymour Papert, « Perceptrons », publié en 1969. Ils présentent une topologie de réseau de neurones à convolutions adaptée à la reconnaissance de l’écriture manuscrite. Chez AT&T Bell Labs, Le Cun et al. parviennent ainsi à appliquer un algorithme de rétropropagation à un réseau neuronal multicouche pour lui faire reconnaître des chèques de banque. Leur programme de reconnaissance d’écriture manuscrite permet de lire les chèques avec un taux de réussite de 50 %.

1996
1996

La méthode du lasso pour traiter un grand nombre de variables d’entrée

Tibshirani propose une méthode de régression pour permettre aux approches statistiques linéaires de faire face au « fléau de la dimension ».

Lorsque le nombre de variables grandit si vite que les données deviennent éparses et éloignées, de nombreux algorithmes statistiques classiques donnent des résultats faussées et biaisées. Ce « fléau de la dimension » (sous-entendu de l’espace des variables), concept introduit en 1961 par  Bellman,  concerne tant le traitement de l’image que la finance ou la biostatistique (avec la génomique). Il pose toujours des problèmes théoriques et pratiques et fait l’objet de nombreuses recherches. Le fléau de la dimension nécessite des techniques de réduction de dimension afin de pouvoir représenter les données dans un espace adéquat et plus facilement interprétable par les distances usuelles et les algorithmes d’analyse de données classiques, notamment pour classer des données. Bien que cette méthode fût utilisée à l’origine pour des modèles utilisant l’estimateur usuel des moindres carrés, la « pénalisation lasso » s’étend à de nombreux modèles statistiques.

1990
1990

Le boosting

Une technique pour améliorer un algorithme, le « booster » par la démultiplication des règles de décision produites et par leur combinaison.

Yoav Freund et Robert Schapire introduisent Adaboost (ou Adaptive boosting), l’une des premières méthodes pleinement fonctionnelles permettant de mettre en œuvre le principe de boosting, un principe algorithmique pour l’apprentissage automatique (machine learning). Le boosting optimise les performances de classifieurs binaires dits faibles (c’est-à-dire un peu meilleurs que le hasard pour classer) en les combinant. Cette technique fait partie des méthodes dites d’ensemble. En 2001, Paul Viola et Michael Jones s’en inspireront pour développer leur méthode, dite de Viola et Jones, une méthode de détection d’objet dans une image numérique. Elle sera parmi les premières méthodes capables de détecter efficacement et en temps réel des objets dans une image, initialement des visages. Elle reste une des plus utilisées pour la détection de visages et de personnes. C’est l’une des plus importantes méthodes de détection d’objets dans les images.

1990

Années 1990 : Les machines à vecteurs de support SVM

Cet ensemble de techniques d’apprentissage supervisé résout des problèmes de discrimination et de régression.

Développés à partir des considérations de Vladimir Vapnik sur une théorie statistique de l’apprentissage (théorie de Vapnik-Chervonenkis), les machines à vecteurs de support ou séparateurs à vaste marge (en anglais Support Vector Machine, SVM) sont rapidement adoptés pour leur capacité à traiter des données de grande dimension ou structurées (images, textes, séquences) avec des métriques adéquates, le faible nombre de paramètres, leurs garanties théoriques, et leurs bons résultats en pratique même sur des problèmes non-linéaires. Les limitations dans leur usage viennent surtout du défaut d’interprétabilité des règles de décision produites. Les SVM ne se prêtent pas non plus à une utilisation en mode séquentiel car ils reposent sur de l’optimisation globale sur l’ensemble des données d’apprentissage.

1988
1988

La traduction automatique par les probabilités

Un changement de paradigme.

Des membres du centre de recherches IBM TJ Watson publient « Une approche statistique de la traduction ». Ils annoncent le passage des méthodes de traduction automatique fondées sur des règles à celles fondées sur les probabilités. Plus largement, on passe à un apprentissage machine fondé sur l’analyse statistique d’exemples connus et non plus sur la compréhension de la tâche à accomplir.

TEAM

RÉDACTRICE EN CHEF : ISABELLE BELLIN – EXPERTISE : NICOLAS VAYATIS