Jacques van Helden : Chef d’orchestre des big data en biologie
⏱ 3 minProfesseur à l’université d’Aix-Marseille et codirecteur de l’Institut français de bio-informatique, Jacques van Helden est un bio-informaticien de la première heure qui a anticipé les évolutions de la biologie et pris très tôt le virage des big data.
Jacques van Helden est un biologiste pas comme les autres. Pas de blouse blanche ni de pipette dans les mains. Depuis le début de sa carrière, ce Belge a décidé de mener ses recherches autrement : assis devant un ordinateur à développer des programmes pour étudier le fonctionnement des organismes vivants. La preuve qu’il a toujours eu un temps d’avance.
De la génétique à la bio-informatique
Dès l’école, le jeune Jacques van Helden est à la fois matheux et intéressé par la biologie. Faute de formations existantes en bio-informatique dans les années 1980, il s’oriente vers des études d’ingénieur agronome à l’Université libre de Bruxelles (ULB), puis poursuit par un doctorat en génétique sur la drosophile (Drosophila melanogaster, une espèce de mouche). Un sujet qui le passionne – il est alors totalement subjugué par le système nerveux des insectes – mais qu’il n’a pas envie d’étudier à la paillasse. « Je passais mon temps sur l’ordinateur à faire de l’analyse d’images. Finalement, disons que j’ai adapté le programme de ma thèse », raconte-t-il, un sourire en coin.
En 1997, il part en post-doctorat au Mexique. « À ce moment-là, seuls 3 ou 4 laboratoires dans le monde faisaient de la bio-informatique sur l’ADN, explique-t-il. Et l’Amérique latine m’attirait ». Sa mission ? Développer des algorithmes pour décrypter certaines séquences du génome de la levure, le seul organisme eucaryote vivant dont le génome avait été séquencé. C’est là qu’il devient véritablement bio-informaticien. « C’était l’avènement des biopuces en biologie et le début de ce que l’on appelle aujourd’hui les data sciences », précise-t-il. C’est là aussi qu’il commence à développer la suite logicielle RSAT (Regulatory Sequence Analysis Tools), qui propose une série d’outils logiciels pour la détection de motifs sur l’ADN, et qui est aujourd’hui largement utilisée par les biologistes.
Le virage des big data
Pourtant désireux de rentrer en Belgique, Jacques van Helden atterrit en 1998 à l’Institut européen de bio-informatique, au Royaume-Uni, où il développe des modèles de représentation des connaissances et des outils d’analyse des voies métaboliques pour n’importe quel organisme. L’année suivante, il intègre l’ULB, où il poursuit ce travail tout en continuant à développer la suite logicielle RSAT. Jusqu’à devenir, en 2003, enseignant-chercheur. Il enseigne notamment les statistiques pour l’analyse des données multidimensionnelles, qu’il intègre dans ses thématiques de recherche. « J’explorais ainsi l’application à la biologie des différentes approches d’apprentissage qui constituent aujourd’hui le socle des data sciences », raconte-t-il. Puis en 2010, il est promu professeur.
Mais cet hyperactif a un projet de vie : vivre dans le sud de la France avec sa famille. L’année suivante, il décroche un poste de professeur de bio-informatique à l’université d’Aix-Marseille. « Entre temps, la biologie était passée des biopuces au séquençage à haut débit des génomes », explique-t-il en bon pédagogue. Dans la cité phocéenne, Jacques van Helden poursuit ses recherches sur l’analyse de la régulation génomique, en adaptant ses enseignements et ses recherches méthodologiques au traitement des données de « Next Generation Sequencing », et adapte la suite RSAT pour affronter le changement d’échelle des données à analyser.
Au service des nouveaux défis de la biologie
La carrière de Jacques van Helden aurait pu se poursuivre ainsi. Mais en 2017, une nouvelle opportunité s’offre à lui : prendre la codirection de l’Institut français de bio-informatique (IFB), une infrastructure nationale, comprenant 10 plateformes de bio-informatique et une quinzaine d’équipes associées, qui déploie différents services : serveurs de calcul et de stockage, logiciels, bases de données, gestion des données, formations… « Avec la biologie à haut débit, les biologistes travaillent de plus en plus à l’analyse de leurs propres données. Ils se sont mis à Unix ou à la programmation en R », explique-t-il. Cette nouvelle responsabilité, qui occupe « 200 % de son temps », marque un tournant dans sa carrière. « Je travaille désormais au quotidien avec des ingénieurs de recherche : un tout autre monde motivé, non par la compétition, mais par la mutualisation des ressources, la collaboration, la quête de qualité et la science ouverte ». Son seul regret ? Il donne moins de cours qu’avant… Mais comme toujours, à la tête de l’IFB, il déborde de projets : « D’abord, il y a une nécessité vitale à gérer les énormes quantités de données générées par le séquençage à haut débit et l’imagerie, c’est-à-dire les stocker, les sécuriser, les mettre à disposition du public… prévoit-il. En matière d’intelligence artificielle aussi, l’attente est très forte pour faire converger informatique et santé. »