Open Source : presque la norme de facto de la Data Science
⏱ 4 minPlus que tout autre domaine d’applications, la Data Science est très majoritairement dominée par les technologies Open Source. Pour des raisons historiques, mais aussi d’évolution des modèles économiques.
Comme un symbole. Voici tout juste trois ans, Google, qui avait jusqu’alors jalousement conservé les secrets autour de ses technologies clés comme le moteur de recherche, a mis à la disposition de tous son moteur d’IA, en le proposant sous licence Open Source. Ce n’est pas un cas isolé, mais un événement marquant dans la Data Science, le moteur d’intelligence artificielle de Google – TensorFlow – étant considéré comme l’un des plus avancés au monde, du fait notamment de l’accès dont bénéficie le géant de l’Internet à des quantités phénoménales de données. « Ce que nous espérons, c’est que la communauté adopte TensorFlow et contribue également à l’améliorer », expliquait alors Jeff Dean, un des ingénieurs stars de Google.
L’adoption et les contributions externes plutôt que la vente de licences ? Pas réellement une surprise pour Roberto Di Cosmo, professeur détaché à Inria et vice-président du groupe thématique Logiciel Libre du pôle de compétitivité System@tic. « L’économie peut être vue comme la science de la répartition des ressources rares. Or, pendant cinquante ans, le logiciel a vécu sur un modèle économique fondé sur la seule chose qui n’y soit pas rare : la copie d’un fichier. Il y a une trentaine d’années, le logiciel libre a permis de révéler les éléments réellement rares, comme la création d’un logiciel ou la modification d’un logiciel existant. Puis, l’Open Source a mis en évidence l’importance du taux d’adoption d’une technologie, ce qui permet d’espérer qu’elle ne sera pas obsolète d’ici un ou deux ans. » Autrement dit, pour Google, imposer son standard sur le marché, le voir adopté par les chercheurs et développeurs, a plus de valeur que de vendre des licences de TensorFlow. « Si l’on y ajoute l’importance des contributions extérieures, pour faire face à la complexité du logiciel et à la vitesse des cycles de développement, on comprend l’engouement des entreprises pour l’Open Source », précise le professeur à l’Inria.
Hadoop s’étend grâce aux développeurs Java
L’exemple de Hadoop est à ce titre emblématique. Conçue pour les besoins internes de Yahoo, cette technologie, proposée en Open Source dès 2008, symbolise aujourd’hui la mutation des systèmes de gestion de données pour le Big Data. Elle est devenue, aux côtés des bases de données NoSQL, le porte-drapeau de cette nouvelle génération de technologies. « Hadoop est devenu un standard industriel dans la Data Science. Grâce au support de la fondation Apache, qui l’a inscrit à son catalogue dès 2009. Grâce aussi à l’appui de la communauté, notamment celle des développeurs Java, qui a étendu ses fonctionnalités au travers de nombreuses extensions, multipliant d’autant les cas d’usages », résume Jonathan Rivalan, le responsable R&D d’Alterway, une société de services spécialisée dans l’Open Source, et copilote du groupe thématique de System@tic. Selon le cabinet d’études IDC, environ 60 % des technologies utilisées aujourd’hui par les entreprises pour gérer les Big Data sont issues de l’Open Source.
Garder les données, mais partager la technologie
Pour Stéfane Fermigier, président du groupe de travail Logiciel Libre de System@tic et entrepreneur dans l’Open Source, au moins deux autres raisons expliquent la domination quasi sans partage de l’Open Source dans la Data Science. « Primo, technologiquement, pour traiter des gros volumes de données, on est passé de machines spécialisées, fort onéreuses, à des machines standardisées (ou presque), en réseau. Les technologies Open Source, comme les clusters Linux, se sont révélées parfaitement adaptées pour déclencher des cycles d’innovation rapides et ouverts sur ce socle. Secundo, économiquement et stratégiquement, les premiers acteurs du Big Data étaient des géants de l’Internet qui ont eu à résoudre des problèmes qui dépassaient les solutions traditionnelles. Ils ont préféré s’y attaquer avec une approche innovante plutôt que de faire appel à des vendeurs traditionnels. Dans la mesure où, pour ces entreprises, la valeur réside dans les données qu’elles collectent plutôt que dans la technologie qu’elles développent, elles ont choisi d’en placer une grande partie en Open Source pour mutualiser la R&D sur ces sujets. » Autrement dit, garder jalousement les données pour soi, mais partager la technologie, pour bénéficier de l’apport de tierces parties.
A tous ces facteurs se greffe une dimension historique : les technologies de Deep Learning, à l’origine du retour en grâce actuel de l’intelligence artificielle, émergent du monde universitaire. Un monde très attaché au partage des connaissances. Au point de lancer, en avril dernier, une campagne de boycott contre un journal scientifique dédié à l’IA, Nature Machine Intelligence,qui privilégie une diffusion sur abonnement plutôt qu’un accès libre à la connaissance. L’appel, lancé par un professeur de l’université de l’Oregon, a recueilli à ce jour plus de 3 300 signatures.
Les atouts techniques de l’Open Source
« Aujourd’hui, en Data Science, il n’existe pas à ma connaissance de solutions totalement propriétaires – hormis certains services Cloud, comme Watson d’IBM ou des offres d’Amazon Web Services et Microsoft Azure – rivalisant en efficacité avec l’offre Open Source », assure Jonathan Rivalan. Il ajoute que des avantages techniques plaident en faveur de l’Open Source. Du fait de la nature du travail dans la Data Science, orienté vers l’identification de modèles dans des jeux de données à travers différentes méthodes, dont des méthodes algorithmiques. « Les solutions Open Source sont à ce titre les plus adaptées, puisqu’elles permettent d’articuler l’effort de développement et d’implémentation de nouveaux algorithmes avec un travail de paramétrage de l’architecture d’analyse, souvent clé dans la qualité des résultats », détaille-t-il. Un facteur qui compte à l’ère du développement piloté par les données, où il faut commencer par identifier une source de données avant même de se lancer dans la conception d’un service innovant.
William Chinaski