Les fulgurants progrès techniques produisent des quantités de données colossales, qu'il faut filtrer, traiter et présenter de façon compréhensible. D'où l'importance des sciences des données au sein de toutes les institutions du Domaine des EPF. Leur développement est d'ailleurs amené à s'accélérer.

Gunnar Rätsch, spécialiste réputé en bioinformatique et informatique médicale et professeur à l’ETH Zurich. (Photo: Kellenberger Kaminski Photographie)

Gunnar Rätsch, professeur d’informatique biomédicale à l'ETH Zurich, associe les sciences des données à la biomédecine. L’Hôpital universitaire de Zurich (USZ) alloue à cette interface une contribution à la chaire et des locaux supplémentaires. Avec son équipe, Gunnar Rätsch développe notamment un système d'alerte précoce destiné aux patientes et patients en soins intensifs. Ce système doit prévenir le corps médical que, si aucune mesure n'est prise, le patient risque d'être victime d'une insuffisance rénale dans quelques heures. Les données de base sont des séries chronologiques multidimensionnelles de mesures physiologiques et de résultats de tests en laboratoire effectués régulièrement: elles sont donc pléthoriques. «Pour les analyses, nous employons des techniques actuelles d’apprentissage machine afin de pronostiquer la suite des événements sur la base de ce qui s’est passé précédemment et des traitements appliqués», explique le scientifique. On pourrait ainsi calculer la probabilité de défaillance de la fonction rénale. «Ce travail participe concrètement à l'amélioration du traitement», affirme Gunnar Rätsch.

D’autres projets de son groupe portent sur le diagnostic et le traitement du cancer, un domaine où l'on recourt déjà à des méthodes de médecine personnalisée. Lorsque l'on détecte une tumeur chez une patiente ou un patient, on la fait examiner par un centre de cancérologie qui étudie les mutations du génome et on sélectionne le traitement en fonction des résultats obtenus. Mais souvent une telle méthode n'est appliquée qu'une fois que la médecine standard a rendu les armes. «C'est alors souvent trop tard pour un traitement», déclare Gunnar Rätsch. «Il faudrait multiplier les travaux de recherche dans ce domaine afin de confirmer l'utilité de l'analyse moléculaire.» Le scientifique n'a pas peur de sortir des sentiers battus dans sa quête de nouvelles connexités et hypothèses. Avec son équipe, il analyse des notes cliniques rédigées à propos de quelque 5000 patientes et patients par des médecins ou du personnel soignant d'un hôpital new-yorkais et examine s'il y aurait des liens entre les observations et certaines mutations de la tumeur du patient. «En tant que scientifiques des données, nous avons une façon différente de voir les choses, ce qui est très intéressant», s'enthousiasme Gunnar Rätsch.

La protection des données revêt une importance particulière lorsqu'il s'agit d'études médicales. Outre les lois qui réglementent précisément l'accès aux dossiers des patients, diverses mesures techniques efficaces sont prises. C'est ainsi que les données sont souvent enregistrées sous un pseudonyme et anonymisées dans le cadre des travaux de recherche. Un contrôle des accès garantit également que seuls les chercheurs ayant un intérêt légitime ont accès à ces informations, qui seront traitées par le biais de systèmes répondant à des consignes de sécurité spécifiques. L'ETH Zurich développe actuellement un Big Data Computing System, particulièrement adapté aux données médicales sensibles. «Les systèmes sont très sécurisés. Les données sont enregistrées encodées. Des procédures spécifiques en règlementent l’accès et la sécurité, si bien que nous pouvons affirmer à juste titre que, chez nous, les données des patients sont en sécurité», explique Gunnar Rätsch. «Ceci nous permet d’étudier ces informations et d’apporter notre contribution aux progrès de la médecine.»

Traiter les données brutes directement sur place

Anastasia Ailamaki, professeur d'informatique à l'EPFL, s'occupe également de données médicales. Elle et son équipe sont en train de développer une infrastructure qui servira à analyser les données de patientes et de patients souffrant de troubles cérébraux en vue de trouver les causes biologiques des maladies. Ce travail est en rapport avec son engagement au sein du Human Brain Project, un projet phare de l'UE portant sur la simulation assistée par ordinateur du cerveau humain. Grâce à un logiciel de gestion des données qu'elle vient de développer, appelé «RAW», l'informaticienne est en mesure de fournir des résultats à partir de données non préparées auparavant. «RAW» accède directement et en temps réel aux données brutes, dans leur format d'origine et là où elles se trouvent, s'adapte automatiquement aux interrogations et donne des réponses simplement et efficacement. En 2015, Anastasia Ailamaki a fondé la spin-off RAW Labs, domiciliée dans l'EPFL Innovation Park, pour commercialiser ce logiciel.

«De nombreuses entreprises telles que Facebook n'utilisent que 10% des données à leur disposition», explique Anastasia Ailamaki. «Ne sachant pas à l'avance quelles données nous seront utiles, nous devons toutes les nettoyer avec un logiciel approprié puis les enregistrer dans le système, avant d’entamer le travail d’analyse à proprement parler. L'analyste recruté à cet effet consacre 80% de son temps de travail bien rémunéré à préparer les données, avant de pouvoir les analyser», explique la chercheuse. Son logiciel, en revanche, identifie automatiquement  les données nécessaires à une interrogation particulière, les localise, donne le résultat et l'enregistre pour pouvoir répondre plus vite à de nouvelles interrogations similaires. «Grosso modo, nous écrivons un code informatique qui, à son tour, crée un autre code informatique et s'en souviendra», décrit la scientifique.

100 ans de données

La collecte et l'analyse de quantités immenses de données est une méthode de travail relativement nouvelle tant dans le secteur de la médecine que dans d'autres secteurs scientifiques. Par contre, elle est plus ancienne dans le domaine de la recherche environnementale. Les scientifiques de l’Institut fédéral de recherches sur la forêt, la neige et le paysage WSL exploitent des données vieilles de plus d'un siècle. Longtemps, l'enregistrement et l'archivage des observations sur les forêts, la météo ou la hauteur de neige ont été considérés comme un travail ennuyant et improductif sur le plan scientifique. Le travail de veille, autrefois souvent moqué, est aujourd'hui de haute actualité du fait du changement climatique et des nouvelles possibilités informatiques. Il fournit de précieuses prévisions. Christoph Marty du WSL Institut pour l'étude de la neige et des avalanches SLF à Davos s'intéresse au manteau neigeux et à son évolution, passée et future. «Il est difficile d'extraire un signal clair des courtes séries chronologiques des dernières décennies: les caprices de la météo ont trop d'impact», explique le scientifique. «Les tendances ne s'esquissent que lorsque l'on dispose de données recueillies régulièrement et depuis longtemps.»

Les débuts d'hiver 2015 et 2016, si chiches en neige, sont des événements plutôt rares. «Mais grâce aux modèles que nous alimentons de nos données, nous savons que de telles situations sont amenées à se reproduire de plus en plus souvent», annonce Christoph Marty. Les mesures de hauteurs de neige effectuées il y a de nombreuses années permettent à Christoph Marty et ses collègues de tester les modèles informatiques et de prédire les répercussions du changement climatique sur l'enneigement futur. Les modèles de calcul ainsi vérifiés montrent, sans ambiguïté possible, qu'il faudra désormais monter plus haut pour les activités hivernales qui exigent un épais manteau neigeux continu. Concernant les avalanches, les résultats sont plus compliqués. «Il est très probable que les avalanches seront moins nombreuses, mais certains hivers elles seront d'une taille rarement observée par le passé», annonce le chercheur du WSL.

Quand les spectateurs applaudissent en cadence

Tirer des conclusions scientifiques de la masse de données: pour y parvenir, la collaboration interdisciplinaire s'impose de plus en plus. La physique statistique a produit une multitude de méthodes permettant de décrire et de comprendre le comportement de systèmes à particules multiples en interaction. «L'application de ces méthodes à la matière vivante est une nouvelle tendance», annonce le physicien Carlo Albert qui s'intéresse au phytoplancton à l'Eawag. Ces algues et bactéries, qui constituent la base de la chaîne alimentaire dans les océans et les lacs, peuvent être dangereuses pour l'homme et les animaux lorsque certaines espèces d'algues toxiques prolifèrent soudainement. 

Francesco Pomati, écologue de l’Eawag, recourt aux lasers pour étudier les millions de particules de plancton présentes dans les lacs suisses. Bien que celles-ci aient une vie propre et réagissent aux changements, elles présentent de nombreuses similitudes avec les particules physiques. «On retrouve des phénomènes simples et universels même dans des systèmes complexes», explique Carlo Albert. «Prenons l'exemple des applaudissements après un concert. Souvent, les spectateurs se synchronisent d'un seul coup et applaudissent en rythme.» Les scientifiques ont commencé par analyser la répartition de certaines caractéristiques au sein de la population de phytoplancton, comme la longueur, le volume ou la pigmentation des particules, afin de dégager des lois. Ils ont souvent identifié des distributions très étendues, typiques des systèmes arrivés à un point critique, où des perturbations risquent de déclencher des réactions à toutes les échelles. Les scientifiques évalueront dans une deuxième phase si ces observations permettent de pronostiquer une prolifération d'algues.

Détecter une piste à creuser

Les fulgurants progrès techniques ne touchent pas seulement des disciplines scientifiques telles que la médecine ou la recherche environnementale mais révolutionnent aussi les sciences des données. L'accroissement des quantités de données est exponentiel. L'Institut Paul Scherrer (PSI), avec ses grandes installations de recherche, y est lui aussi confronté. «Nous avons une énorme montagne de données qu'il va falloir traiter dans un délai raisonnable», déclare Gabriel Aeppli, qui est à la tête du département de rayonnement synchrotron et nanotechnologie du PSI. Autrefois, on recueillait des données, on élaborait un modèle et on l'ajustait. «Aujourd'hui, on n'en a plus guère le temps», estime l'expert. «Nous devons gérer les données plus vite et plus efficacement pour ne pas crouler sous le flot.» Data Mining, Machine Learning et Deep Learning: voici les mots clés dans ce domaine. On gagne ainsi en rapidité et on découvre des choses que l'on ne voit pas avec le traitement modélisé. «Parmi tous les pixels qui nous passent sous les yeux, il y a des choses que nous ne jugeons pas utiles d'approfondir, alors que l'informatique moderne peut y détecter une piste à creuser», se félicite Gabriel Aeppli, professeur à l'ETH Zurich et à l'EPFL.

«La nouvelle discipline que l'on appelle Data Science, qui porte sur l'automatisation, la standardisation et la représentation des résultats de façon à les rendre compréhensibles, a totalement changé notre façon de travailler», indique Daniele Passerone, qui dirige le groupe Atomistic Simulation à l'Empa. Il reconnaît avoir été sceptique au début, mais maintenant que l'ordinateur le décharge d'une telle quantité de travail, il lui reste plus de temps pour approfondir un sujet et être créatif. «Les idées ne sont pas automatisées», ajoute le physicien théoricien.

De nouvelles nanostructures nées de l'informatique

Les scientifiques de l'Empa recourent aux simulations informatiques pour développer de nouveaux matériaux, comme des rubans composés de carbone alvéolaire de l'épaisseur d'un atome. Des molécules fabriquées ad hoc réagissent sur une surface métallique, un processus ascendant engendrant alors des nanostructures unidimensionnelles exemptes de défauts. On aimerait fabriquer de nouveaux composants électroniques à partir de tels nanorubans de graphène. Pour donner au nanomatériau les propriétés électroniques souhaitées, les chercheurs ont eu l'idée de remplacer quelques atomes de carbone par des atomes tiers, par exemple de bore ou d’azote. Mais combien d'atomes de bore faut-il? «Nous pouvons calculer les propriétés électroniques de toutes les nanostructures possibles par ordinateur, avec un, deux ou trois atomes de bore. Mais nous avons besoin de matériel performant, capable de brasser de grandes quantités de données», explique Daniele Passerone. À partir des différentes combinaisons possibles, on peut alors sélectionner celles qui sont compatibles avec les composants moléculaires réalisables.

Pour venir à bout de cette mission, une infrastructure avec base de données automatisée et interactive a été développée sous la direction de l'EPFL, dans le cadre du pôle national de recherche MARVEL. «Je joue le rôle d'interface entre MARVEL et l'Empa», poursuit Daniele Passerone. Une fois la question définie, le système traite automatiquement ce flux en distribuant les tâches à des «fermes de calcul» locales, à de lointains ordinateurs du cloud ou à de superordinateurs. On obtient ainsi, par exemple, une base de données avec un bon millier de structures de carbone unidimensionnelles, qui contiennent une répartition d’atomes tiers prescrite par simulation informatique. Le système cherche alors parmi celles-ci celles qui se prêteraient effectivement à des applications électroniques. Ensuite, les scientifiques vérifient par des expériences si la théorie se confirme.

Swiss Data Science Center

Accélérer la diffusion des sciences des données modernes en Suisse, tel est l'objectif de l'Initiative for Data Science, lancée par le Domaine des EPF. En janvier 2017, le Swiss Data Science Center de l'EPFL et de l'ETH Zurich ouvrira ses portes, doté d'un budget de 30 millions de francs pour les quatre années à venir. Il sera dirigé par Olivier Verscheure: «La première tâche de notre plate-forme sera l'incubation de données, c'est-à-dire comment obtenir des informations exploitables à partir de données brutes, comment supprimer les bruits parasites et comment combler les trous.»

Si, aujourd'hui, on souhaite mettre en corrélation des données sur la santé, des données sur la pollution atmosphérique et des données sur la circulation, on se heurte rapidement à des difficultés, étant donné que les données ne viennent pas des mêmes silos et ne sont comprises que par les spécialistes du domaine en question. «Une personne qui ne s'y connaît pas en pollution atmosphérique ne sait pas comment réétalonner les données d'un capteur de CO2 en fonction de l'humidité de l'air», explique Olivier Verscheure. «Comme nous travaillons avec différentes équipes, nous sommes capables d'introduire toutes sortes de jeux de données et de sources de données, si bien que les informations peuvent être exploitées par des chercheurs de tous les horizons et par l'industrie suisse.»

Dans une deuxième étape, des techniques modernes telles que l'apprentissage machine entreront en action. On pourrait par exemple trouver qu'il existe un lien entre flux du trafic et météo. Ce qui permettrait d'anticiper les embouteillages, sur la base d'anciens bouchons et de prévisions météo. Et on pourrait aussi calculer la pollution atmosphérique et les risques pour la santé. «Quand nous traitons des données cliniques, la protection des données est bien entendu très importante», confirme Olivier Verscheure. «Nous devons prouver que la sécurité des données est garantie.»

Trop performant?

Les méthodes de traitement modernes des données présentent toutefois elles aussi des dangers. L'apprentissage machine ou le Deep Learning se retrouve d'ores et déjà dans des filtres anti-spam, des programmes de reconnaissance d'image ou de visage, des moteurs de recherche de Google et Facebook. Dans de nombreux secteurs d'application, elles ont dépassé les techniques traditionnelles en à peine trois ans. «Le Deep Learning fonctionne outrageusement bien, bien mieux qu'il le devrait, à notre avis», déclare Edouard Bugnion, professeur en informatique à l'EPFL. «Sur un million de pommes, un ordinateur est capable de retrouver les 50 fruits qui se ressemblent le plus. Comment il y parvient, c'est tout le mystère du Deep Learning», explique le scientifique.

Les modèles utilisés sont souvent si compliqués que l'on ne les comprend plus. Ce qui ne gêne personne pour un filtre anti-spam pose problème avec d'autres applications. «La société ne devrait-elle pas se préoccuper du mode de fonctionnement des véhicules autonomes?», interroge Edouard Bugnion. «Le prix à payer en cas d'erreur pourrait être très élevé.» Les scientifiques eux aussi souhaitent comprendre le cheminement suivi jusqu'à l'obtention d'un résultat de recherche. La situation pourrait devenir particulièrement épineuse quand l'ordinateur d'un médecin conseille un certain médicament pour une patiente, sans qu'il sache pourquoi. «Cela ne fonctionnera pas», Olivier Verscheure en est convaincu.

Il espère aussi que le centre contribuera à mettre en relation les scientifiques des données et les utilisateurs. «C'est un défi de taille», commente le directeur. Il faudrait également faire de gros efforts dans le domaine de la formation des scientifiques, poursuit Edouard Bugnion. L'EPFL et l'ETH Zurich proposent à cet effet de nouveaux cursus de master en sciences des données. «C'est une étape importante», estime Anastasia Ailamaki, professeur à l'EPFL. Les étudiants auront ainsi mieux conscience de l'utilité de leur travail sur le long terme.

Gabriel Aeppli espère beaucoup de la collaboration entre le PSI et le nouveau Swiss Data Science Center, notamment pour comprendre les structures des biomolécules. Chaque seconde, le nouveau Laser suisse à électrons libres dans le domaine des rayons X (SwissFEL) pourra fournir une centaine d’images de microcristaux et de biomolécules.  Pour piloter au mieux de telles expériences et déterminer à partir de là où se trouvent les atomes au sein des molécules et définir la structure spatiale de la molécule, il faut un logiciel adapté. «Nous sommes en train d’en développer un avec d’autres spécialistes des rayons X du monde entier», précise Gabriel Aeppli. «Ce processus s'accélérera lorsque notre savoir s'enrichira des ressources mises à disposition par le Domaine des EPF.»