La banque, nouveau terrain de jeu en sciences des données
⏱ 4 minÀ l’instar de BNP Paribas et son data science and artificial intelligence lab, les banques cherchent à mettre à profit leur énorme quantité de données sous forme de textes, de voix, d’images… En raison des réglementations, elles développent leurs propres outils de traduction automatique, de « speech-to-text » (transformation de la voix en texte) et de reconnaissance optique de caractères (OCR). Ces recherches et développements de pointe notamment en deep learning intéressent également la communauté des chercheurs.
Les banques ont développé une grande expertise dans le maniement de quantités de chiffres. Mais 80 % des informations bancaires sont des textes (mails, contrats, extraits de fils d’infos, données collectées sur le web…), de la voix (enregistrements de chat-rooms, de conversations téléphoniques), des images (scans de documents…). Autant de données, dites sous forme non structurée, traitées jusque-là de façon très peu ou pas automatisée. « Depuis quelques années, l’intelligence artificielle (IA) bouleverse la donne dès lors qu’on a les données,rappelle Edouard d’Archimbaud, responsable du data science and artificial intelligence lab de BNP Paribas CIB (Corporate and Institutional Banking). À l’époque, nous avions identifié 150 cas d’usage que nous avons décomposés en 12 besoins fondamentaux autour d’IA. Grâce aux recherches menées depuis deux ans avec mon équipe qui compte aujourd’hui une quarantaine de personnes, nous mettons à disposition du groupe nos premiers outils automatisés de traitement de ces données non structurées. D’autres suivront. »
Quand la donnée remplace l’expertise linguistique
Premier exemple : un outil de traduction automatique qui s’avère plus performantLe texte est comparé à une traduction cible. La qualité se mesure avec un score qualitatif donné par des humains ou par une métrique selon le nombre de modifications à faire par rapport au texte cible. que les outils standards du marché, en tout cas sur les données de BNP Paribas (il est un peu moins bon sur des données généralistes). « C’est un algorithme opensource de deep learning, à base de réseaux de neurones profonds récurrents, entrainé avec un mécanisme d’attentionMécanisme qui reproduit notre capacité naturelle à focaliser notre attention sur certains objets, certaines personnes ou certaines actions d’une scène ou d’une image., explique Edouard d’Archimbaud. Pour disposer d’une excellente base de langage commun, l’apprentissage (en mode supervisé) a d’abord été fait sur des données externes, comme celles du Parlement Européen qui dispose de milliers de textes traduits en plusieurs langues, ou de livres électroniques. Nous l’avons ensuite spécialisé sur nos données bancaires à partir de traductions de contrats, de documents de marketing, de textes légaux, etc. » Depuis 2017, l’outil est à la disposition du groupe, présent dans 73 pays et avec une vingtaine de directions de traduction (anglais/français, l’inverse, allemand/espagnol, etc.).
Il est également possible de faire la traduction de chat, ces discussions par écrit en ligne entre clients et vendeurs, à surveiller pour des questions de qualité de service. Ces données sont complexes à traiter car les échanges comportent beaucoup d’acronymes, une syntaxe lacunaire, peu de ponctuation, des tournures de phrases et un vocabulaire qui ressemblent plus à une conversation orale… Comment entrainer les modèles sur ces « données sales » ? « Nous étudions deux solutions pour rendre notre outil plus robuste à ces données, précise-t-il : un prétraitement de correction orthographique, d’ajout de ponctuation… qui permet de standardiser le texte, couplé à un apprentissage sur des données de conversation comme des sous-titres de films. Ou, à l’inverse, un modèle capable de traiter ces données brutes, ce qui suppose de créer de la donnée sale avec des fautes de frappe, sans ponctuation, etc. pour pouvoir l’entrainer. »
Des solutions ouvertes aux clients corporate
À terme, l’outil sera capable d’identifier automatiquement s’il s’agit de traduire du texte ou du chat pour ensuite mettre à profit le bon modèle de traduction. De quoi fournir une première version à relire aux opérateurs qui font parfois encore ce travail à la main. Ce sera aussi le moyen de passer à une autre échelle dans l’analyse des informations voire à de nouvelles analyses. « Nous ouvrirons ces solutions à nos clients corporate, qui ont souvent les mêmes préoccupations que nous en matière de protection de données et ne souhaitent pas utiliser les logiciels des GAFAM, confirme-t-il. Il suffit de les spécialiser dans leur propre domaine d’activité, sur leur jeu de données. »
Autre exemple d’algo prometteur : le speech-to-text qui doit permettre de transformer en textes des conversations, que ce soit en salles de marché ou dans les centres d’appels, pour pouvoir leur appliquer ensuite d’autres outils comme la recherche de contenu, la détection de sujets, l’analyse de sentiments, etc. « Cette fois, les solutions commerciales existantes ne sont pas à la hauteur, précise Edouard d’Archimbaud. Leur taux d’erreur, le nombre de mots mal retranscrits, dépasse 50 %. » Tout simplement parce que les enregistrements de conversation sont de mauvaise qualité, avec une grande diversité d’accents, un vocabulaire spécifique aux produits financiers ou au trading, des voix qui s’entremêlent et beaucoup de bruit de fond dans le cas des salles de marché. Pour contextualiser leur modèle, les data scientist de BNP Paribas doivent taguer ces données audio, autrement dit faire à la main ce lourd travail de retranscription (il faut environ 5 mn pour retranscrire 1 mn de ces enregistrements audio).
« Nous obtenons déjà des résultats meilleurs que les solutions du marché sur des dialogues financiers, se réjouit-il. Et ces données étiquetées ouvrent la voie à d’autres recherches : nous avons 3 thèses Cifre et un post-doc en cours. Parmi nos sujets de recherche, la diarisation, la capacité à distinguer plusieurs locuteurs sur une même bande son ou encore l’identification de l’empreinte vocale. » Les banques, qui ont la culture des données, se donnent les moyens de les exploiter et de les partager avec les chercheurs. Ces dernières deviendraient-elles pourvoyeuses de solutions de traduction, de speech-to-text, de recherche de contenu, d’OCR… ? En tout cas, ce sont de véritables laboratoires d’innovation.