Swiss Data Science Center: Datenwissenschaft stärken

Datenwissenschaftliche Methoden kommen in Forschung und Industrie zur Anwendung. Um die datenbasierte Forschung zu fördern, wurde vor zweieinhalb Jahren das Swiss Data Science Center gegründet. Das Zentrum wird von der ETH Zürich und der EPFL gemeinsam getragen und von den Informatikdepartementen beider Fachhochschulen unterstützt. Seinem Ziel, Data Science in Wissenschaft und Industrie offener, transparenter und zugänglicher zu machen, ist es bereits ein gutes Stück näher gekommen.

Das Swiss Data Science Center will datenwissenschaftliche Methoden in andere Bereiche der Wissenschaft sowie in die Industrie einbringen.
Das Swiss Data Science Center will datenwissenschaftliche Methoden in andere Bereiche der Wissenschaft sowie in die Industrie einbringen.

Im Jahr 2012 bezeichnete Harvard Business Review die Rolle des Data Scientists als externe Seite «the sexiest job of the 21st century» und katapultierte den Begriff «Data Science» in den Mainstream. Aber Datenwissenschaften sind mehr als ein Medienhype: Ihre Methoden, die Mathematik, Statistik und Informatik vereinen, können zur Lösung verschiedener Probleme in der Forschung und Industrie eingesetzt werden. Der ETH-Rat hat Data Science zu einem seiner vier strategischen Fokusbereiche für die Jahre 2017 bis 2020 erklärt, damit die Schweiz von den neuen Möglichkeiten der Digitalisierung profitieren kann.

Als wesentlichen Schritt zu diesem Ziel haben die ETH Zürich und die EPFL im Januar 2017 gemeinsam das Swiss Data Science Center (SDSC) gegründet. Das Zentrum, das sowohl in Zürich als auch in Lausanne Standorte betreibt und von beiden ETH gleichermassen unterstützt wird, will die Zusammenarbeit zwischen Datenwissenschaftlern und Expertinnen anderer Fachrichtungen fördern und so deren Forschung erleichtern. «Die Mission des Zentrums ist es, Wissenschaft und Industrie bei der Nutzung von Methoden aus Data Science und maschinellem Lernen zu unterstützen», sagt Olivier Verscheure, Geschäftsführer der SDSC. «Wir tun dies, indem wir Parteien vernetzen, die sonst nicht miteinander in Kontakt kämen.»

Zwei Jahre nachdem das SDSC seinen Betrieb aufgenommen hat, zeigt dieser Ansatz bereits Erfolg: Die ersten akademischen Projekte haben die Hälfte ihrer Laufzeit erreicht, Industriekollaborationen nehmen zu und die vom Zentrum geschaffene Softwareplattform für Datenwissenschaft stösst auf internationales Interesse. Aber wie fügt sich das SDSC in die bereits bestehenden Forschungsgruppen und Beratungsunternehmen im Bereich Data Science ein?

Die Lücken schliessen

Die Welt der Datenwissenschaft ist komplex; die Datenwissenschaftlerin, der Eigentümer der Daten und die Forscherin, die am meisten aus den Daten lernt, sind oft drei verschiedene Akteure, jeweils mit ihren eigenen Interessen und Anliegen. «Wenn eine medizinische oder ökologische Forschungsgruppe datenwissenschaftliche Methoden und maschinelles Lernen in ihrer Forschung anwenden will, kann sie dafür nicht immer mit datenwissenschaftlichen Forschungsgruppen zusammenarbeiten: Die Data Scientists müssen sich auf ihre eigene Forschung und eigenen Publikationen konzentrieren. Obwohl sie durchaus interessiert wären, fehlen ihnen oft die Ressourcen, um den anderen Forschenden zu helfen», erklärt Verscheure.

«Das SDSC ermöglicht eine einzigartige Synergie zwischen Wissenschaft und Industrie, sowohl in den Datenwissenschaften als auch in sorgfältig ausgewählten Fachbereichen.»Olivier Verscheure

Hier setzt das Swiss Data Science Center an, ergänzend zu den renommierten Informatikdepartementen der ETH Zürich und der EPFL.

Das SDSC verfügt über ein eigenes Team von rund 15 Datenwissenschaftlerinnen und -wissenschaftlern in Zürich und Lausanne. Sie arbeiten an unterschiedlichen Projekten in der Forschung – und seit Kurzem auch in der Industrie. «Ich möchte betonen, dass das Zentrum weder ein akademisches Forschungslabor noch eine Beratungsfirma ist», sagt Olivier Verscheure. «Das SDSC ermöglicht eine einzigartige Synergie zwischen Wissenschaft und Industrie, sowohl in den Datenwissenschaften als auch in sorgfältig ausgewählten Fachbereichen. Dies wird es dem Zentrum ermöglichen, wissenschaftliche Durchbrüche mit erheblichen Auswirkungen auf die Gesellschaft zu fördern.»

Data Science nach Bedarf

Bei akademischen Forschungsprojekten am SDSC ist die Zusammenarbeit zwischen externen Forschenden und SDSC-Datenwissenschaftlern zentral. Derzeit fungiert das Zentrum auch als Geldgeber: Zwei Drittel der vom ETH-Rat erhaltenen Mittel werden in wissenschaftliche Projekte zurückgeführt. Einmal im Jahr nimmt das Zentrum Projektvorschläge entgegen, welche datenwissenschaftliche Methoden in anderen Forschungsbereichen anwenden wollen. Die vielversprechendsten Projekte werden vollständig vom Zentrum finanziert, in der Regel für zwei Jahre, und einem SDSC-Datenwissenschaftler oder einer SDSC-Datenwissenschaftlerin zugewiesen. Der Data Scientist und die Projektinitiatorin adaptieren die richtigen datenwissenschaftlichen Methoden für die anstehenden Forschungsfragen und veröffentlichen die Ergebnisse gemeinsam.

Obwohl diese Idee von gemeinsamen Projekten den Forschungsgruppen zunächst etwas befremdlich vorkam, stellt Verscheure fest, dass die meisten Projektteams sie zu schätzen gelernt haben. Das Zentrum ist bei Forschenden gefragt: 18 Projekte wurden in der ersten Auswahlrunde Ende 2017 angenommen und haben nun die Hälfte ihrer Laufzeit hinter sich. Vor wenigen Monaten kamen zehn weitere Projekte dazu, die noch ganz am Anfang stehen.

«Maschinelles Lernen kann zu neuen Erkenntnissen beitragen, zumal viele wissenschaftliche Fragestellungen heute grosse und hochkomplexe Datensätze betreffen.»Professor Andreas Krause

Die Forschungsprojekte zeigen die wahre Bandbreite der Anwendungen der Datenwissenschaft. «Die grössten Schwerpunkte sind die Gesundheits- und Biowissenschaften sowie die Umweltwissenschaften», sagt Andreas Krause, akademischer Co-Direktor des SDSC und Professor am Departement Informatik der ETH Zürich. Die Möglichkeiten von Data Science kennen kaum Grenzen: Es gibt Projekte zu Kosmologie, Politik- und Sozialwissenschaften und sogar Architektur. Krause, selbst ein Experte für maschinelles Lernen, der bei der Gründung der SDSC mitgewirkt hat, sieht viel Potenzial in der Anwendung von datenwissenschaftlichen Methoden auf andere Forschungsbereiche. «Machine Learning wird gewiss nicht alle unsere Probleme lösen, aber es kann zu neuen Erkenntnissen beitragen. Zumal viele wissenschaftliche Fragestellungen heute grosse und hochkomplexe Datensätze betreffen», erläutert er.

Die Zukunft der Industrie sichern

Nachdem das SDSC seine akademischen Tätigkeiten etabliert hat, hat das Zentrum auch begonnen, mit der Industrie zu kollaborieren, wo die Nachfrage nach Data Science ebenso gross ist. «Technologieunternehmen wie Google und Facebook brauchen uns natürlich nicht – sie haben eigene Teams von Data Scientists», sagt Olivier Verscheure. Stattdessen konzentriert sich das Zentrum auf traditionelle Branchen wie Produktion und Bankgewerbe sowie auf biopharmazeutische Unternehmen. «Es gibt viele traditionelle Unternehmen in der Schweiz, die in ihrem Bereich weltweit führend sind. Einige von ihnen sind über hundert Jahre alt», sagt Verscheure. «Wenn diese Unternehmen den Sprung in die Digitalisierung nicht schaffen, hat das verheerende Folgen.»

In der Industrie wie in der Wissenschaft setzt sich das SDSC klar von Beratungsunternehmen ab, die fertige Lösungen anbieten. Stattdessen will das Zentrum die Lücke zwischen Datenwissenschaftlern und -wissenschaftlerinnen, die einen Arbeitsplatz in traditionellen Branchen suchen, und den Branchen selbst schliessen. Olivier Verscheure weiss, welche Herausforderungen auf junge Data Scientists direkt von der Hochschule warten: «Die Unternehmen und die Data Scientists haben komplett unterschiedliche Erwartungen. Das Unternehmen sucht Leute, die sein Geschäftsmodell disruptiv verändern. Die Data Scientists hingegen erwarten, sich mit tiefer Mathematik und maschinellem Lernen beschäftigen zu können. In der Realität haben sie oft Schwierigkeiten, überhaupt Zugang zu den richtigen Daten zu bekommen. Sie sind von ihren Peers isoliert und von Menschen umgeben, die Datenwissenschaften misstrauen, oder die aufgrund von Kommunikationsbarrieren nicht verstehen, was Data Science bringen soll. Aus diesem Grund haben traditionelle Unternehmen oft Schwierigkeiten, Datenwissenschaftlerinnen und -wissenschaftler länger als ein Jahr zu halten.»

«Die Unternehmen und die Data Scientists haben komplett unterschiedliche Erwartungen.»Olivier Verscheure

Das SDSC bietet beiden Parteien die Möglichkeit, voneinander zu lernen und sich anzupassen – indem das Zentrum Data Scientists für die Unternehmen einstellt. «Gemeinsam mit den Firmen suchen wir nach Data Scientists, die für ihre Bedürfnisse geeignet sind», erklärt Verscheure. «Das Unternehmen finanziert die Wissenschaftlerin, aber wir sind diejenigen, die sie tatsächlich einstellen.» So bleiben junge Data Scientists in ein Team von Gleichgesinnten eingebettet, wo sie weiterhin über die Datenwissenschaften lernen und in ihrem schnelllebigen Fach auf dem Laufenden bleiben können. Zugleich arbeiten sie an Unternehmensprojekten, lernen das Innenleben der Branche kennen und entwickeln Kommunikationsfähigkeiten, die notwendig sind, um datenwissenschaftliche Konzepte an die Stakeholder im Unternehmen zu vermitteln.

«Unser Ziel ist es, dass das Unternehmen in einem oder zwei Jahren bereit ist, den Datenwissenschaftler direkt einzustellen – und der Datenwissenschaftler weiss, was ihn erwartet», sagt Verscheure. «Schon sehr bald wird der Grossteil der Arbeitsplätze in Data Science in den traditionellen Branchen angesiedelt sein. Daher ist es wichtig, dass wir diese letzte Lücke zwischen Wissenschaft und Industrie schliessen.» Die Nachfrage aus der Industrie ist ensprechend hoch. Die relativ junge Industriezelle des Zentrums arbeitet bereits mit Unternehmen wie der Bühler-Gruppe zusammen.

Eine Plattform für offene Wissenschaft

Datenwissenschaften stehen vor einer weiteren Herausforderung: Damit die Forschungsergebnisse reproduzierbar sind, sollten die Daten sowie die Algorithmen und die Rechenressourcen, mit denen sie analysiert werden, anderen Forschenden zur Verfügung gestellt werden. Allerdings sind die Daten oft vertraulich, die Rechenkapazitäten zu wertvoll und der Code läuft einige Monate oder Jahre später aufgrund von Softwareänderungen möglicherweise nicht mehr in gleicher Weise. Dies schränkt die datenbasierte Forschung ein.

Das Swiss Data Science Center will auch hier Abhilfe schaffen, zumal es in seiner Arbeit mit denselben Problemen konfrontiert ist. Dazu entwickelt ein dediziertes Team von Software-Ingenieurinnen und -Ingenieuren am SDSC eine Software-Plattform namens RENKU. Benannt nach einer japanischen Form der kollaborativen Poesie, ist RENKU eine offene Plattform, welche die Zusammenarbeit in der Datenwissenschaft erleichtert. RENKU speichert und protokolliert die Daten, die darauf angewandten Methoden sowie die gesammelten Ergebnisse und verwaltet Rechenressourcen und Zugriffsrechte. «Mit RENKU wollen wir die Forschung offener, transparenter und reproduzierbarer machen und den Forschenden Zugang zu Daten und Rechenressourcen wie SWITCH und dem Schweizer Hochleistungsrechenzentrum (SNSC) in Lugano ermöglichen», führt Andreas Krause aus.

In den zwei Jahren seit seiner Gründung hat das Team des SDSC bereits eine erste funktionierende Version von RENKU erstellt und arbeitet nun an der Umsetzung von Zusatzfeatures. «Wir hoffen, dass RENKU die Nutzung datenwissenschaftlicher Methoden fördern wird, indem es Forschenden unterschiedlicher Fachrichtungen die Zusammenarbeit einfacher macht», sagt Olivier Verscheure. Zu diesem Zweck nutzt das SDSC RENKU in seinen akademischen und industriellen Projekten. Die einzigartige Plattform hat bereits internationales Interesse geweckt: Renommierte Universitäten erwägen, eigene RENKU-Instanzen zu betreiben, um ihre Daten und die datenbasierte Forschung transparenter zu machen. «Unser nächstes Ziel ist es, mehr Forschende von der Plattform zu überzeugen», sagt der Executive Director. «Stellen Sie sich ein Netzwerk von RENKU-Instanzen zwischen ETH, EPFL und anderen Weltklasse-Universitäten vor, in dem Forschende problemlos Daten austauschen können, aber trotzdem im Besitz ihrer Daten bleiben; in dem sie auf den Forschungsergebnissen der anderen aufbauen können und für ihre eigenen Beiträge die gebührende Anerkennung erhalten.»

Einzigartige Stärken

Fast dreissig wissenschaftliche Projekte, mehrere Industriekollaborationen und eine funktionierende Softwareplattform: In den zweieinhalb Jahren seit seiner Gründung hat das SDSC erhebliche Fortschritte bei der Erreichung seiner Ziele gemacht. Sowohl Olivier Verscheure als auch Andreas Krause waren positiv überrascht von der Geschwindigkeit und Effizienz, mit der das Projekt durchstartete. «Die Menschen in der Schweiz sind Macher», sagt der Geschäftsführer. «Sie sind sehr pragmatisch, und wenn sie einen Konsens erreicht haben, setzen sie ihn schnell und effizient in die Tat um.» Andreas Krause ergänzt: «Es ist uns gelungen, Spitzenfachkräfte mit einem breiten Spektrum an Fachwissen in den Bereichen Machine Learning, Signalverarbeitung, Systems, Datenschutz und Sicherheit etc. zu gewinnen – und der Markt ist hart umkämpft.»

«Es ist uns gelungen, Spitzenfachkräfte mit einem breiten Spektrum an Fachwissen in den Bereichen Machine Learning, Signalverarbeitung, Systems, Datenschutz und Sicherheit etc. zu gewinnen.»Professor Andreas Krause

Das heterogene SDSC-Team, das auf die Standorte in Zürich und Lausanne verteilt ist, hat die Kooperation zwischen den beiden Eidgenössischen Hochschulen gefördert. Eine solche Partnerschaft ist in der Data-Science-Welt einzigartig. «Data-Science-Zentren spriessen zwar wie Pilze aus dem Boden, aber die meisten internationalen Universitäten haben je ein eigenes Zentrum. Das zerstückelt die Datenwissenschaft», erklärt Verscheure. «Das SDSC profitiert von einer einzigartigen Positionierung, mit einem eigenen Team von Wissenschaftlerinnen und Wissenschaftlern und zwei Spitzenuniversitäten, die ihre Kräfte bündeln.» Das Zentrum erhält das Beste aus zwei Welten: Einerseits ein dediziertes Team, andererseits ein Steering Committee, das sich aus Vertretern des gesamten ETH-Bereichs zusammensetzt, nicht nur aus den Informatikdepartementen, sondern auch aus Mathematik und Ingenieurwesen, um einen ganzheitlichen Ansatz zu gewährleisten. Die SDSC trägt auch zur Ausbildung an der ETH Zürich und der EPFL bei, sowohl zum Masterstudium in Data Science als auch zu den Weiterbildungsprogrammen DAS und CAS.

Den Blick nach vorn

Somit ist das SDSC bereit, sich den Herausforderungen von morgen zu stellen. «Wir wachsen weiter und bauen unsere Kooperationen mit Wissenschaft und Industrie aus. Das Zentrum wird sich bemühen, über den ETH-Bereich hinaus zu expandieren und sich zu einem wahrhaft nationalen Institut für Datenwissenschaft und KI-Dienstleistungen zu entwickeln. Wir haben bereits auch auf internationaler Ebene Gespräche begonnen», sagt Olivier Verscheure. «In den nächsten Jahren hoffen wir, die Akzeptanz der RENKU-Plattform zu erhöhen, unsere Industriezelle zu erweitern und die ersten wissenschaftlichen Durchbrüche in den Forschungsprojekten zu präsentieren.» Langfristig will der Geschäftsführer nicht mehr in erster Linie auf Mittel des ETH-Rates für wissenschaftliche Projekte zurückgreifen. «Wir haben zunächst Projekte finanziert, um der wissenschaftlichen Gemeinschaft aufzuzeigen, wie sie von der Zusammenarbeit mit uns profitieren kann», erklärt er. «Wir hoffen, dass die Forschungsgruppen in Zukunft zu uns kommen und wir gemeinsam eine Finanzierung beim Schweizerischen Nationalfonds, Horizon 2020 oder ähnlichen Institutionen beantragen können.»

Ist das Ziel des ETH-Rates, die Schweiz auf die Digitalisierung vorzubereiten, nun erreicht? «Wir haben den Prozess in Gang gesetzt», sagt Andreas Krause. «Aber Data Science bewirkt einen so grundlegenden Wandel in der akademischen Welt, in der Wirtschaft und in der ganzen Gesellschaft, dass wir uns noch nicht auf unseren Lorbeeren ausruhen können. Das Zentrum hat enormes Potenzial, zu einem Katalysator zu werden, der Fachexperten, SDSC-Datenwissenschaftlerinnen und Forschende aus den Grundlagen der Datenwissenschaft zusammenbringt, um Dinge zu erreichen, die bisher nicht möglich waren.»

Beispiele von akademischen 
Forschungsprojekten am SDSC

Deep Learning for Observational Cosmology – DLOC

Wissenschaftlerinnen und Wissenschaftler des Departements Informatik und des Departements Physik der ETH Zürich erforschen gemeinsam mit dem Swiss Data Science Center Möglichkeiten, wie man mit maschinellen Lernmethoden die Analyse kosmologischer Daten verbessern kann. Eines der Ziele ist insbesondere, ein generatives Modell zu erstellen, das einige rechenintensive kosmologische Simulationen beschleunigt.
externe Seite Mehr erfahren

A Research Platform for Data-Driven Democracy Studies in Switzerland – DemocraSci

Initiiert von Forschenden des Departements Management, Technologie und Ökonomie der ETH Zürich und des Departements Informatik der Universität Zürich zielt dieses Projekt darauf ab, die datenwissenschaftliche Methoden für die Politikwissenschaft nutzbar zu machen. Dafür entwickeln die Forschenden eine Dokumentenverarbeitungs- und Analysekette für Dokumente aus Parlamentsverhandlungen der letzten 125 Jahre. Dieses Projekt ist auf Interesse aus Bundesbern gestossen.
externe Seite Mehr erfahren

Delivering Added-value To Antarctica – ACE-DATA

Forschende des Swiss Polar Institute an der EPFL, des British Antarctic Survey, des PSI und anderer Institutionen arbeiten mit dem Swiss Data Science Center zusammen, um Daten, die von verschiedenen Forschungsgruppen während Expeditionen in den Südlichen Ozean gesammelt wurden, zu Open-Access-Datensätzen zusammenzuführen. Das Projekt will so disziplinübergreifende, datengesteuerte Forschung ermöglichen.
externe Seite Mehr erfahren

JavaScript wurde auf Ihrem Browser deaktiviert