L’analyse des foules
⏱ 5 minLa vision artificielle est aujourd’hui capable d’interpréter avec plus ou moins de bonheur notre visage, nos gestes, voire notre comportement collectif. Le troisième et dernier volet de notre dossier s’intéresse à l’analyse des foules.
Dopée par l’apprentissage profond, la vision artificielle est aujourd’hui capable de nous observer et d’interpréter peu ou prou nos faits et gestes, à différentes échelles. Nous clôturons ce dossier en changeant de focale, pour nous intéresser à l’analyse des foules. C’est l’un des axes de recherche d’Emanuel Aldea, qui est maître de conférences à l’université Paris-Saclay et chercheur au sein du groupe Moss (Méthodes et outils pour les signaux et systèmes) du laboratoire Satie (Systèmes et applications des technologies de l’information et de l’énergie).
« Nous nous intéressons à l’analyse de foules à l’aide de l’apprentissage profond1, essentiellement dans une logique de sécurité et de régulation, notamment dans des contextes liés aux transports, explique Emanuel Aldea. Dans des situations, par exemple, où les heures de pointe provoquent des flux denses dans les gares ou les stations de métro et alentour. Ou encore à la sortie d’un stade ou d’une salle de spectacle, à l’issue d’un match ou de tout autre événement. Notre objectif est de développer des méthodes capables, à terme, de fournir des chiffres et des alertes permettant de mieux gérer les flux en temps réel afin de limiter les incidents, et le cas échéant d’aider à la décision à propos de nouveaux aménagements. »
Obtenir des résultats sans attenter à la vie privée
« Nos algorithmes travaillent à partir d’images où n’apparaissent souvent pas beaucoup plus que des têtes, indique le chercheur. Des visages très souvent occultés, parfois surtout des crânes ou des couvre-chefs. Nos algorithmes s’en accommodent pour mesurer des densités et suivre ces têtes d’une image vidéo à la suivante. » Tant que toutes les têtes avancent à peu près ensemble, tout va bien. En revanche, si une ou des têtes se déplacent dans une direction qui ne concorde plus avec le flux général, c’est une anomalie, peut être le signal d’un incident…
L’un des problèmes à surmonter dans ce domaine, est qu’il faut obtenir des résultats sans attenter à la vie privée. Laquelle fait l’objet d’une réglementation en Europe. Dans certains pays, comme la Chine ou la Russie, la recherche n’est pas freinée par ce genre de considérations. « Nous devons, de notre côté, concevoir des outils qui garantissent le respect de la vie privé des personnes qui passent devant les caméras, précise Emanuel Aldea. Nous travaillons d’ailleurs sur ce sujet avec des juristes du laboratoire Ceraps de l’université de Lille. L’idéal est le « privacy by design » (confidentialité dès la conception). »
Distinguer les individus sans les identifier
Dans la mesure où il s’agit d’analyser collectivement des foules, on pourrait croire qu’il est facile de ne traiter aucune donnée permettant l’identification d’une personne. « C’est plus compliqué qu’il n’y paraît, signale le chercheur. La taille, par exemple, est un paramètre permettant de distinguer les individus dans une foule. Or, si un individu mesure 2,2 mètres, il devient assez identifiable, pour des raisons purement statistiques… Voilà le genre de problèmes que nous devons gérer. » Le choix des capteurs utilisés joue un rôle dans la mise en œuvre de solutions respectant les réglementations sur la vie privée. Ainsi, un lidar fournit un nuage de points, donc une représentation en 3D d’une foule, mais pas d’image permettant de reconnaître une personne. Or, le prix des lidars ne cesse de baisser.
Emanuel Aldea a été le coordinateur du projet ANR Mohicans (Modelling High-Density Crowds for Assisting Planning and Safety, soit Modélisation de foules très denses pour assister la gestion et la sécurité), qui s’est terminé en 2020. « Son objectif était de proposer une méthodologie pour l’analyse de foules de forte densité, en s’appuyant sur les derniers travaux sur le suivi de foule via une seule caméra2, mais aussi de proposer des solutions pour associer les données provenant de multiples caméras3, explique le chercheur. »
Observation des modifications de flux
« Dans le cadre du projet Mohicans, précise Emanuel Aldea, nous avons notamment publié4 des travaux proposant de nouveaux instruments de mesure, reposant sur la notion d’entropie, permettant de mieux caractériser le comportement d’une foule. Nous nous sommes intéressés en particulier aux transitions de phases, lorsque l’écoulement passe d’une dynamique à une autre. Par exemple quand un mode « stop and go » s’établit : les individus s’arrêtent localement parce qu’ils sont bloqués par ceux qui les précèdent, marquent une pause puis recommencent à marcher. Une vague se propage ainsi le long de la foule et le débit est ralenti. Certaines de ces transitions de phase sont des signes précurseurs de problèmes… »
Le projet ANR Girafe (Gestion des incidents lors de rassemblements de foules) a été lancé, fin 2019, avec pour objectif de fournir de nouveaux outils pour la gestion des foules qui ne manqueront pas de poser problème au cours des Jeux Olympiques de 2024 à Paris. Le Greyc (Groupe de recherche en informatique, image, automatique et instrumentation de Caen) en est le partenaire académique spécialiste de vision artificielle. « Nous travaillons sur la détection d’événements anormaux, explique Alexis Lechervy, un chercheur du Greyc impliqué dans le projet. Nous développons des modèles comportant plusieurs réseaux de neurones spécialisés, capables de détecter des anomalies dans un flux vidéo afin d’attirer l’attention d’un opérateur sur l’écran correspondant, où il pourra voir ce qui se passe et agir en conséquence. »
Des densités de cinq à huit personnes par mètre carré
Il y a des foules et des problèmes de foules dans le monde entier. « Dans le cadre de nos travaux, indique Emanuel Aldea, nous avons notamment utilisé des images captées à la Mecque à la période du pèlerinage annuel, un contexte où l’on observe des densités extrêmes, de l’ordre de cinq à huit personnes au mètre carré, et où se produisent des bousculades parfois mortelles. » On pourrait croire qu’un logiciel analysant les foules peut s’exporter n’importe où sur la planète. Ce n’est pas si simple, explique le chercheur. « Les modèles entraînés à partir d’un jeu de données issu d’un contexte particulier ne donneront pas forcément de bons résultats dans un cadre culturel trop éloigné du premier : on ne s’habille pas en Inde comme à Londres. Il faut dans certains cas réentraîner les modèles pour tenir compte de ces différences. »
Pierre Vandeginste
Notes
1. G. Franchi, E. Aldea, S. Dubuisson, I. Bloch, “Tracking Hundreds of People in Densely Crowded Scenes with Particle Filtering Supervising Deep Convolutional Neural Networks”, IEEE International Conference on Image Processing (ICIP), 2020. doi.org/10.1109/ICIP40778.2020.9190953 ⟨hal-02916158⟩
2. J. Vandoni, E. Aldea et S. Le Hégarat-Mascle, « Evidential Query-By-Committee Active Learning for Pedestrian Detection in High-Density Crowds », International Journal of Approximate Reasoning, 2019. ⟨hal-01918406⟩
3. N. Pellicanò, E. Aldea et S. Le Hégarat-Mascle, « Geometry-Based Multiple Camera Head Detection in Dense Crowds », Proceedings of the 28th British Machine Vision Conference (BMVC) – 5th Activity Monitoring by Multiple Distributed Sensing Workshop, 2017. ⟨hal-01691761⟩
4. G. Franchi, E. Aldea, S. Dubuisson, I. Bloch, “Crowd Behavior Characterization for Scene Tracking”, 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), 2019. ⟨10.1109/AVSS.2019.8909893⟩. ⟨hal-02472760⟩