
L’IA pourrait faciliter le dépistage du burn-out
⏱ 5 minUne équipe de la Haute école spécialisée bernoise a réalisé par apprentissage automatique des modèles qui détectent des signaux évoquant le syndrome d’épuisement professionnel dans des échanges sur le site Reddit.
Selon le dernier baromètre réalisé par OpinionWay (mars 2022) pour le cabinet de RH Empreinte Humaine sur la santé mentale des salariés français, 34 % d’entre eux seraient en « burn-out », dont 13 % sous une forme sévère, ce qui représente 2,5 millions de personnes. Des chiffres bien sûr aggravés par la pandémie (+25% de mai à novembre 2021). L’OMS définit le burn-out (ou burnout), en français le « syndrome d’épuisement professionnel », comme un état résultant d’un stress chronique au travail qui n’a pas été géré avec succès. Il associe trois principaux symptômes : un épuisement émotionnel, psychique et physique (sentiment d’être vidé de ses ressources), une attitude négative, dure, détachée vis-à-vis de son travail, et enfin une dévalorisation de soi (sentiment d’inefficacité, de ne pas être à la hauteur). Le dépister au plus tôt est devenu un enjeu de santé publique. L’IA se propose d’apporter son concours.
Diagnostiquer ce syndrome n’est pas si simple. Un état d’épuisement physique et psychique peut aussi évoquer la dépression ou l’anxiété. On fait généralement appel à une batterie de tests psychologiques, notamment des questionnaires, qui ont des limitations. Les QCM (questionnaires à choix multiples) souffrent de biais dus à des attitudes défensives, voire de déni de la part du patient, qui triche parfois, consciemment ou non. Il n’est pas facile d’admettre un état qui suggère l’échec et n’est pas socialement enviable. L’analyse de questionnaires en texte libre est plus prometteuse, mais pose à un moindre degré le même type de problème, et implique un coût en travail humain pour leur évaluation.
Des écrits libres, hors contexte médical
C’est pourquoi des équipes de recherche s’intéressent à l’analyse automatique de textes produits librement par le patient, hors de tout contexte médical. Une équipe helvétique a notamment publié1 tout récemment dans Frontiers in Big Data des travaux de cette nature. Mascha Kurpicz-Briki est maître de conférences au département d’informatique de la Haute école spécialisée bernoise et responsable adjointe du groupe de recherche sur l’intelligence artificielle appliquée. Elle dirige le projet BurnoutWords qui vise précisément à détecter des signes indicateurs du syndrome d’épuisement professionnel grâce à l’outillage du traitement automatique du langage naturel (ou plutôt des langues), bref, du NLP (Natural Language Processing) et de l’apprentissage automatique.
Détecter grâce à l’IA des signaux évocateurs du burn-out dans des textes produits librement, c’est l’idée de départ. Mais où trouver des écrits de cette nature ? L’équipe de Mascha Kurpicz-Briki a opté pour le site communautaire états-unien Reddit qui revendique 50 millions d’échanges quotidiens dans plus de cent mille groupes de discussions. Parmi ces groupes, appelés « subreddits », il en est un dénommé r/Burnout consacré explicitement au thème du burn-out, et d’autres dédiés à divers aspects de la santé mentale mais où il est également présent. Pour constituer leurs jeux de données, les chercheurs y ont tout d’abord récolté un total de 1536 contributions contenant le mot-clé « burnout » ou un dérivé. Ils ont ensuite filtré cette récolte en éliminant les textes qui n’évoquent pas réellement une situation concrète d’épuisement professionnel. Aux 677 interventions restantes, ils ont ajouté toutes les réponses d’autres intervenants pour obtenir un total de 23371 textes. C’est ensuite à la main que l’équipe a sélectionné 352 contributions décrivant à la première personne une expérience de burn-out.
À côté de cette sélection de textes étiquetés burnout, les chercheurs ont constitué une collection de textes étiquetés no burnout : 13216 contributions issues de divers forums consacrés à des sujets aussi divers que la science, les livres ou le fitness. À partir de ces ensembles de contributions, Mascha Kurpicz-Briki et son équipe ont constitué plusieurs jeux de données. Un premier jeu additionnant tous les textes des groupes burnout et no burnout, soit un total de 13569 éléments. Un second jeu, qualifié « d’équilibré », comportant les 352 textes burnout et un nombre égal de no burnout choisis au hasard. Un troisième jeu, constitué à partir du second en éliminant systématiquement des textes le mot burnout et ses dérivés. L’idée étant, en comparant les résultats obtenus à partir de ces deux derniers jeux de données, d’évaluer l’influence de l’occurrence du mot burnout sur la conclusion des modèles. Tous ces jeux de données ont ensuite été vectorisés, afin de représenter chaque contribution par un vecteur « sac à mots » à 500 dimensions.
Le vote des sous-modèles d’un « ensemble »
L’équipe a testé diverses méthodes d’apprentissage automatique. Cela en utilisant à chaque fois 70% d’un jeu de données pour l’apprentissage d’un modèle et 30% pour son évaluation. Elle a tout d’abord fait appel à des classifieurs classiques : régression logistique, divers types de machines à vecteurs de support (SVM) et forêt aléatoire. Ces modèles, à une exception près (un type particulier de SVM), ont affiché des performances déjà encourageantes. Celles obtenues avec le premier jeu de données ont montré les inconvénients habituels inhérents au recours à un dataset très déséquilibré (plus de 97% de no burnout). Mais le deuxième jeu de données, équilibré, a permis d’obtenir une précision (sensibilité) autour de 90% en moyenne. Le troisième jeu de données (contributions burnout sans le mot burnout) a fourni des résultats à peine inférieurs, de quelques points seulement.
Dans un second temps, l’équipe a fait appel à des modèles plus sophistiqués. Des classifieurs de type « ensemble », reposant sur l’entraînement d’un certain nombre (entre dix et vingt) de sous-modèles (des régressions logistiques) sur des sous-ensembles distincts des jeux de données. La réponse du modèle étant obtenue en faisant “voter” ces sous-modèles : il classifiera un texte comme burnout quand une certaine proportion p (par exemple 80%) de ses sous-modèles le classifie comme tel. Les chercheurs se sont inspirés de la méthode « UnderBagging » proposée2 par Ricardo Barendela. « Cette approche, explique Mascha Kurpicz-Briki, est bien adaptée pour travailler sur un jeu de données initial très déséquilibré, ce qui était notre cas. » Ces modèles « ensemble » se sont montrés encore plus performants que les modèles simples, le meilleur d’entre eux affichant une précision équilibrée (moyenne de la sensibilité et de la spécificité) de 93%.
Intelligence « augmentée » plutôt qu’artificielle
Bien sûr, ces modèles n’ont pas été entraînés sur un jeu de données comportant des patients diagnostiqués en burn-out ou non par un clinicien. Ils ne font que détecter des textes qui évoquent, décrivent, la symptomatologie du burn-out. « Il est très difficile d’obtenir des textes produits par des patients diagnostiqués, indique Mascha Kurpicz-Briki. Mais ce travail démontre l’efficacité du NLP et des méthodes d’apprentissage automatique dans la détection des indicateurs d’épuisement professionnel. » Ce qui est très encourageant. « Nous travaillons dans une perspective “d’intelligence augmentée” plutôt que “d’intelligence artificielle”, rappelle la chercheuse. Ce qui implique l’utilisation de la technologie pour soutenir les humains dans leur travail quotidien, plutôt que les remplacer. »
L’équipe de la Haute école spécialisée bernoise n’en a pas terminé avec le burn-out. « Nous allons poursuivre ces travaux dans plusieurs directions. Après avoir travaillé sur des textes en anglais, nous voulons élargir nos recherches à d’autres langues. Nous allons également nous intéresser à la question des biais dans nos jeux de données, de l’équité dans nos modèles. Surtout, il nous faut maintenant travailler en partenariat avec des cliniciens. C’est avec eux que nous pourrons envisager des modalités de mise en œuvre de nos méthodes dans un cadre clinique. »
Pierre Vandeginste
1. Ghofrane Merhbene, Sukanya Nath, Alexandre R. Puttick, Mascha Kurpicz-Briki. “BurnoutEnsemble: Augmented Intelligence to Detect Indications for Burnout in Clinical Psychology”. Frontiers in Big Data, avril 2022. doi.org
2. Ricardo Barandela et al. New Applications of Ensembles of Classifiers. Pattern Analysis and App., 2003. doi.org