L’analyse des foules

11 mars 2021

A la Une, DAP, News, Quand l’IA nous regarde…

#apprentissage profond, #visionartificielle

L’analyse des foules

⏱ 5 min

La vision artificielle est aujourd’hui capable d’interpréter avec plus ou moins de bonheur notre visage, nos gestes, voire notre comportement collectif. Le troisième et dernier volet de notre dossier s’intéresse à l’analyse des foules.

Dopée par l’apprentissage profond, la vision artificielle est aujourd’hui capable de nous observer et d’interpréter peu ou prou nos faits et gestes, à différentes échelles. Nous clôturons ce dossier en changeant de focale, pour nous intéresser à l’analyse des foules. C’est l’un des axes de recherche d’Emanuel Aldea, qui est maître de conférences à l’université Paris-Saclay et chercheur au sein du groupe Moss (Méthodes et outils pour les signaux et systèmes) du laboratoire Satie (Systèmes et applications des technologies de l’information et de l’énergie).

« Nous nous intéressons à l’analyse de foules à l’aide de l’apprentissage profond¹, essentiellement dans une logique de sécurité et de régulation, notamment dans des contextes liés aux transports, explique Emanuel Aldea. Dans des situations, par exemple, où les heures de pointe provoquent des flux denses dans les gares ou les stations de métro et alentour. Ou encore à la sortie d’un stade ou d’une salle de spectacle, à l’issue d’un match ou de tout autre événement. Notre objectif est de développer des méthodes capables, à terme, de fournir des chiffres et des alertes permettant de mieux gérer les flux en temps réel afin de limiter les incidents, et le cas échéant d’aider à la décision à propos de nouveaux aménagements. »

Obtenir des résultats sans attenter à la vie privée

« Nos algorithmes travaillent à partir d’images où n’apparaissent souvent pas beaucoup plus que des têtes, indique le chercheur. Des visages très souvent occultés, parfois surtout des crânes ou des couvre-chefs. Nos algorithmes s’en accommodent pour mesurer des densités et suivre ces têtes d’une image vidéo à la suivante. » Tant que toutes les têtes avancent à peu près ensemble, tout va bien. En revanche, si une ou des têtes se déplacent dans une direction qui ne concorde plus avec le flux général, c’est une anomalie, peut être le signal d’un incident…

À gauche : Exemple d’image à basse résolution (pour respecter la vie privée) utilisée pour tester un modèle de localisation des têtes, « annotée » (points verts) par un humain. À droite : ce que « voit » l’algorithme. Plus une tache est rouge, plus il estime qu’une tête est présente. Il est moins confiant sur certaines, il peut en rater, mais parfois il détecte des têtes que l’humain annotateur n’a pas vu. © Satie.

L’un des problèmes à surmonter dans ce domaine, est qu’il faut obtenir des résultats sans attenter à la vie privée. Laquelle fait l’objet d’une réglementation en Europe. Dans certains pays, comme la Chine ou la Russie, la recherche n’est pas freinée par ce genre de considérations. « Nous devons, de notre côté, concevoir des outils qui garantissent le respect de la vie privé des personnes qui passent devant les caméras, précise Emanuel Aldea. Nous travaillons d’ailleurs sur ce sujet avec des juristes du laboratoire Ceraps de l’université de Lille. L’idéal est le « privacy by design » (confidentialité dès la conception). »

Distinguer les individus sans les identifier

Dans la mesure où il s’agit d’analyser collectivement des foules, on pourrait croire qu’il est facile de ne traiter aucune donnée permettant l’identification d’une personne. « C’est plus compliqué qu’il n’y paraît, signale le chercheur. La taille, par exemple, est un paramètre permettant de distinguer les individus dans une foule. Or, si un individu mesure 2,2 mètres, il devient assez identifiable, pour des raisons purement statistiques… Voilà le genre de problèmes que nous devons gérer. » Le choix des capteurs utilisés joue un rôle dans la mise en œuvre de solutions respectant les réglementations sur la vie privée. Ainsi, un lidar fournit un nuage de points, donc une représentation en 3D d’une foule, mais pas d’image permettant de reconnaître une personne. Or, le prix des lidars ne cesse de baisser.

Emanuel Aldea a été le coordinateur du projet ANR Mohicans (Modelling High-Density Crowds for Assisting Planning and Safety, soit Modélisation de foules très denses pour assister la gestion et la sécurité), qui s’est terminé en 2020. « Son objectif était de proposer une méthodologie pour l’analyse de foules de forte densité, en s’appuyant sur les derniers travaux sur le suivi de foule via une seule caméra², mais aussi de proposer des solutions pour associer les données provenant de multiples caméras³, explique le chercheur. »

Observation des modifications de flux

« Dans le cadre du projet Mohicans, précise Emanuel Aldea, nous avons notamment publié⁴ des travaux proposant de nouveaux instruments de mesure, reposant sur la notion d’entropie, permettant de mieux caractériser le comportement d’une foule. Nous nous sommes intéressés en particulier aux transitions de phases, lorsque l’écoulement passe d’une dynamique à une autre. Par exemple quand un mode « stop and go » s’établit : les individus s’arrêtent localement parce qu’ils sont bloqués par ceux qui les précèdent, marquent une pause puis recommencent à marcher. Une vague se propage ainsi le long de la foule et le débit est ralenti. Certaines de ces transitions de phase sont des signes précurseurs de problèmes… »

Le projet ANR Girafe (Gestion des incidents lors de rassemblements de foules) a été lancé, fin 2019, avec pour objectif de fournir de nouveaux outils pour la gestion des foules qui ne manqueront pas de poser problème au cours des Jeux Olympiques de 2024 à Paris. Le Greyc (Groupe de recherche en informatique, image, automatique et instrumentation de Caen) en est le partenaire académique spécialiste de vision artificielle. « Nous travaillons sur la détection d’événements anormaux, explique Alexis Lechervy, un chercheur du Greyc impliqué dans le projet. Nous développons des modèles comportant plusieurs réseaux de neurones spécialisés, capables de détecter des anomalies dans un flux vidéo afin d’attirer l’attention d’un opérateur sur l’écran correspondant, où il pourra voir ce qui se passe et agir en conséquence. »

Trajectoires de personnes qui se déplacent ensemble, déterminées par un algorithme d’analyse de foule à haute densité. Les deux couleurs (rouge/bleu) ne servent qu’à mieux différencier des trajectoires proches. © Satie.

Des densités de cinq à huit personnes par mètre carré

Il y a des foules et des problèmes de foules dans le monde entier. « Dans le cadre de nos travaux, indique Emanuel Aldea, nous avons notamment utilisé des images captées à la Mecque à la période du pèlerinage annuel, un contexte où l’on observe des densités extrêmes, de l’ordre de cinq à huit personnes au mètre carré, et où se produisent des bousculades parfois mortelles. » On pourrait croire qu’un logiciel analysant les foules peut s’exporter n’importe où sur la planète. Ce n’est pas si simple, explique le chercheur. « Les modèles entraînés à partir d’un jeu de données issu d’un contexte particulier ne donneront pas forcément de bons résultats dans un cadre culturel trop éloigné du premier : on ne s’habille pas en Inde comme à Londres. Il faut dans certains cas réentraîner les modèles pour tenir compte de ces différences. »

Pierre Vandeginste

Notes

1. G. Franchi, E. Aldea, S. Dubuisson, I. Bloch, “Tracking Hundreds of People in Densely Crowded Scenes with Particle Filtering Supervising Deep Convolutional Neural Networks”, IEEE International Conference on Image Processing (ICIP), 2020. doi.org/10.1109/ICIP40778.2020.9190953 ⟨hal-02916158⟩

2. J. Vandoni, E. Aldea et S. Le Hégarat-Mascle, « Evidential Query-By-Committee Active Learning for Pedestrian Detection in High-Density Crowds », International Journal of Approximate Reasoning, 2019. ⟨hal-01918406⟩

3. N. Pellicanò, E. Aldea et S. Le Hégarat-Mascle, « Geometry-Based Multiple Camera Head Detection in Dense Crowds », Proceedings of the 28th British Machine Vision Conference (BMVC) – 5th Activity Monitoring by Multiple Distributed Sensing Workshop, 2017. ⟨hal-01691761⟩

4. G. Franchi, E. Aldea, S. Dubuisson, I. Bloch, “Crowd Behavior Characterization for Scene Tracking”, 16^th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), 2019. ⟨10.1109/AVSS.2019.8909893⟩. ⟨hal-02472760⟩

Termes liés :

Retrouver les autres articles du dossier “Quand l’IA nous regarde…” :

Tags: #apprentissage profond, #visionartificielle

Menu

L’analyse des foules

Obtenir des résultats sans attenter à la vie privée

Distinguer les individus sans les identifier

Observation des modifications de flux

Des densités de cinq à huit personnes par mètre carré

Pierre Vandeginste

Retrouver les autres articles du dossier “Quand l’IA nous regarde…” :

Tout savoir sur…

L’analyse des foules

Obtenir des résultats sans attenter à la vie privée

Distinguer les individus sans les identifier

Observation des modifications de flux

Des densités de cinq à huit personnes par mètre carré

Pierre Vandeginste

Retrouver les autres articles du dossier “Quand l’IA nous regarde…” :

Posts you'd might like

La reconnaissance des activités

Les multiples voies de l’apprentissage frugal

L’apprentissage profond replie les protéines « in silico »

Ces réseaux de neurones rajeunissent photos et films du temps jadis