"RACKlette ist für mich wie eine zweite Familie"
Team RACKlette wurde von Professor Torsten Hoefler und seinen Studierenden gegründet und wird vom Swiss National Supercomputing Centre unterstützt. Es bietet Informatikstudierenden die Möglichkeit, den Bereich High-Performance Computing kennenzulernen und aus erster Hand Erfahrungen zu sammeln, wie solche Systeme für wissenschaftliche oder industrielle Anwendungen aufgebaut und optimiert werden können.
Ende Mai nahmen sechs Studierende der ETH Zürich an der ISC Student Cluster Competition 2023 in Hamburg teil. Sie gehören dem Team RACKlette an, das von Professor Torsten Hoefler beraten wird, um Studierende zu ermutigen, sich mit praktischen Anwendungen des High-Performance Computing (HPC) vertraut zu machen. Mit der Unterstützung von Hussein Harake, Systems Engineer am Swiss National Supercomputing Centre (CSCS), arbeiten sie an verschiedenen Themen rund um HPC und Anwendungsoptimierung. Das Team hat bei internationalen Wettbewerben bereits mehrere prestigeträchtige Preise gewonnen.
High-Performance Computing
Hochleistungsrechner, auch «Supercomputer» genannt, sind leistungsstarke Systeme, mit denen umfangreiche Simulationen von Experimenten durchgeführt werden, die im Labor nicht realisiert werden könnten. In letzter Zeit wurden sie auch verwendet, um grosse Modelle der künstlichen Intelligenz und Aufgaben des maschinellen Lernens auszuführen.
Die HPC-Technologie nutzt Gruppen von miteinander verbundenen Rechnern oder Servern, sogenannte «Nodes» oder «Knoten», die als ein einziges System zusammenarbeiten, um rechenintensive Aufgaben zu erfüllen. HPC-Systeme nutzen die Leistung von Hunderten oder gar Tausenden parallel laufenden Recheneinheiten und können damit Aufgaben bewältigen, die nicht einmal vom schnellsten Desktop-Computer erledigt werden können. Dazu gehören industrielle oder wissenschaftliche Simulationen, Datenanalysen oder maschinelles Lernen wofür sehr viel Rechenleistung, Arbeitsspeicher und Speicherplatz benötigt wird.
Typische Anwendungen in der Wissenschaft oder der Industrie reichen von Strömungssimulationen über die Analyse des Verhaltens von Molekülen bis hin zu Berechnungen über die Entstehung des Mondes. Die Strömungsdynamik ist zum Beispiel ein wesentlicher Bestandteil der Fahrzeugkonstruktion und -technik. Während Automobilhersteller mit Supercomputern simulieren, wie sich die Luftströmung über die Karosserie eines Autos auf Effizienz und Kraftstoffverbrauch auswirkt, nutzt die Pharmaindustrie Strömungs- und Molekulardynamiksimulationen für die Entwicklung von Medikamenten.
Auch grosse Wetter- und Klimasimulationen erfordern Supercomputer, um Naturphänomene global zu modellieren, wie Luft- oder Landmassenbewegungen auf der gesamten Erdoberfläche. Auf lokaler Ebene ermöglichen Simulationen zudem den Zugriff auf detaillierte Wolkendynamiken. Um nützlich zu sein, müssen diese Wettermodelle Zehntausende von Parametern berücksichtigen und rechtzeitig Ergebnisse liefern: Die Wettervorhersage vom 1. August 2023 würde kaum jemand interessieren, wenn sie erst vier Wochen danach zur Verfügung stünde. Wenn Hunderte oder Tausende von Computern parallel an ein und demselben Problem arbeiten, können diese Prozesse erheblich beschleunigt werden. Die genannte Wettervorhersage kann also erheblich verbessert werden.
Aber auch wenn Hunderte oder Tausende von Computern parallel an denselben Rechnungen arbeiten, ist das eine grosse Herausforderung, wie die jungen Mitglieder des ETH-Teams RACKlette erklären: «Nicht mehr die Berechnung, sondern die Kommunikation stellt die Herausforderung dar», fasst Niklas Römer zusammen.
«Nicht mehr die Berechnung, sondern die Kommunikation stellt die Herausforderung dar.»Niklas Römer, Informatikstudent im dritten Jahr und Mitglied des Teams RACKlette
Um die enorme Rechenleistung möglichst effizient nutzen zu können, müssen die Wissenschaftlerinnen und Wissenschaftler darauf achten, dass die Computer richtig miteinander kommunizieren. Das erfordert ein Umdenken hinsichtlich der Probleme und wie wir diese formulieren. Es erfordert auch Änderungen beim Schreiben der Algorithmen.
Von der Theorie zur Praxis
Anhand eines verkleinerten Nachbaus des CSCS-Supercomputers im Tessin lernen die Studierenden des Teams RACKlette, wie sie diese Probleme lösen und HPC-Anwendungen auf einem echten Supercomputer betreiben können.
«Der Cluster, den sie verwenden, ähnelt dem in Lugano», erklärt Hussein Harake. «Er läuft auf die gleiche Weise, mit der gleichen Kommunikationsgeschwindigkeit zwischen den Knoten der Systeme, nur mit einer geringeren Anzahl von Computern.» In den Wochen vor den internationalen Supercomputing-Wettbewerben hat Harake fast täglich Kontakt zu den Studierenden, unterstützt sie technisch mit dem Cluster und gibt ihnen Hinweise zur Problemlösung. Er führt die Arbeit aber nie an ihrer Stelle aus.
Die enge Interaktion mit dem CSCS gibt den Teammitgliedern die Möglichkeit, mit Technologien zu arbeiten, auf die sie sonst keinen Zugriff hätten. «Dadurch konnte ich viel besser verstehen, wie die Dinge funktionieren, wie diese Computer aussehen und wie die Technologie entwickelt wurde, um riesige Simulationen so schnell durchzuführen», sagt Faveo Hörold, seit 2021 Mitglied des Teams.
Zudem verbindet die Interaktion mit dem CSCS die Informatikforschung am Scalable Parallel Computing Laboratory von Professor Torsten Hoefler an der ETH Zürich mit der operativen oder eher praktischen Seite des Supercomputings am CSCS. Die Studierenden, die von Professor Torsten Hoefler und Hussein Harake betreut werden, profitieren enorm davon, HPC aus beiden Perspektiven kennenzulernen. Es gebe bereits «viele vielversprechende Ingenieurinnen und Forscher im Team», meint Hussein Harake. Sie entdecken die Wissenschaft dahinter, aber lernen auch direkt, wie HPC zur Lösung realer Probleme eingesetzt werden kann. Auf Konferenzen, an Wettbewerben und im Kontakt mit ihren Betreuenden erhalten sie die für Bachelor-Studierende in der Regel seltene Gelegenheit, internationale Expertinnen und Experten aus dem HPC-Bereich kennenzulernen.
«Es gibt viele vielversprechende Ingenieurinnen und Forscher im Team.»Hussein Harake, HPC Systems Engineer bei CSCS
«Teil des Teams zu sein, an diesen Konferenzen teilzunehmen, mit Expertinnen und Professoren zu sprechen, ist für uns eine einzigartige Erfahrung», bestätigt Faveo. Demnächst nimmt er an seinem letzten Wettbewerb teil, und obwohl er erst kürzlich mit dem Master begonnen hat, verfügt er bereits über gute Kontakte in der Welt des HPC. «Ich werde ein Praktikum am Forschungsinstitut Riken in Japan machen, das über einen der grössten und schnellsten Supercomputer der Welt verfügt. RACKlette öffnet uns viele Türen zu Praktika und Jobs in Industrie und Forschung.»
Kommunikation ist zentral
Für ein erfolgreiches Team ist, genauso wie für HPC, eine gute Kommunikation wichtig. Da die meisten Studierenden vor ihrem Einstieg bei RACKlette sehr wenig über HPC wissen, besteht ein grosser Teil der Aufgaben des Teams neben der Vorbereitung auf Wettbewerbe darin, Wissen weiterzugeben und neue Mitglieder über die parallele Datenverarbeitung sowie verschiedene spezifische und technische Themen zu unterrichten.
«Im Team ist viel Fachwissen vorhanden», betont Hannes Eberhard. Es ist wichtig, neue Mitglieder so schnell wie möglich an Bord zu holen. Neben der Pflege einer grossen Online-Wissensbasis treffen sich die Teammitglieder regelmässig zu selbst organisierten Meetings und Workshops. Jene, die bereits über mehr Erfahrung verfügen, organisieren Vorträge und Übungen oder laden CSCS-Expertinnen und -Experten ein, die dem gesamten Team wichtige Themen und Technologien erklären. Alle sind sich einig: Fragen zu stellen, ist eine der wichtigsten Kompetenzen, die sie zu Beginn entwickeln müssen. «Ein grosser Teil der Lernerfahrung ist es, den richtigen Leuten die richtigen Fragen zu stellen. Wir sollten uns häufig zu viel mehr Fragen überwinden, auch wenn das manchmal unangenehm ist. Diese Mentalität unterscheidet sich von der, die wir als Studierende gewohnt sind», erklärt Alexander Sotoudeh.
«Ein grosser Teil der Lernerfahrung ist es, den richtigen Leuten die richtigen Fragen zu stellen. Wir sollten uns häufig zu viel mehr Fragen überwinden, auch wenn das manchmal unangenehm ist. Diese Mentalität unterscheidet sich von der, die wir als Studierende gewohnt sind.»Alexander Sotoudeh, Informatikstudent im zweiten Jahr und Mitglied des Teams RACKlette
Neben HPC-spezifischem Fachwissen vermittelt die Mitarbeit im Team auch nützliche Kompetenzen wie Führung und Community Management, Wissenstransfer oder Eventorganisation. Die Mitglieder erhalten dadurch auch eine neue und multidisziplinäre Perspektive auf das, was sie in ihren Bachelor-Lehrveranstaltungen lernen. «An der Uni», findet Niklas, «haben wir nicht viel über HPC gelernt, es sei denn, wir wählten spezifische Kurse zum Thema.» Das Team hat für ihn einen grossen Unterschied gemacht und er belegt nun Kurse über HPC und Parallel Computing, die er sonst nicht belegt hätte, und denkt darüber nach, in seinem Studium neue Wege zu gehen, die er noch vor ein paar Jahren nicht für möglich gehalten hätte.
Teil von RACKlette zu sein, ist für die jungen Studierenden auch eine bereichernde persönliche Erfahrung. Sie lernen viel, entdecken neue Wissenschaftsgebiete, aber vor allem treten sie einer Gemeinschaft von Freunden und Kolleginnen bei, mit denen sie auch nach ihrer Zeit im Team noch vieles teilen werden. So wird Marcel Ferrari weiterhin neue Mitglieder unterstützen und ausbilden, mit dem Ziel, eines Tages selbst Betreuer zu werden. «Mit Menschen zusammenzuarbeiten, die das gleiche Interesse und die gleiche Leidenschaft für HPC teilen, war eine grossartige Erfahrung und Chance», sagt er. «Der ISC23-Wettbewerb war mein dritter und letzter, aber RACKlette-Mitglied zu sein, ist mehr als nur ein Wettkampf: RACKlette ist für mich wie eine zweite Familie.»
«Mit Menschen zusammenzuarbeiten, die das gleiche Interesse und die gleiche Leidenschaft für HPC teilen, war eine grossartige Erfahrung und Chance. Der ISC23-Wettbewerb war mein dritter und letzter, aber RACKlette-Mitglied zu sein, ist mehr als nur ein Wettkampf: RACKlette ist für mich wie eine zweite Familie.»Marcel Ferrari, Rechnergestützte Wissenschaften Student und -technik im dritten Jahr und Mitglied des Teams RACKlette
Internationale Studierendenwettbewerbe
Das Team besteht aus rund zwanzig Bachelor-Studierenden (und einigen Studierenden zu Beginn ihres Masters), die an der ETH Zürich Informatik oder Rechnergestützte Wissenschaften studieren.
Neben dem Unterrichten neuer Mitglieder in HPC ist es ihr Hauptziel, sich während des Jahres auf zwei Wettbewerbe vorzubereiten: die Student Cluster Competitions der International Supercomputing (ISC) und der Supercomputing (SC). Für jeden Wettbewerb erhalten sie eine Reihe von Aufgaben, die die Durchführung von Simulationen mit neuen wissenschaftlichen Anwendungen erfordern. Sie müssen ein System aufbauen, das diese Anwendungen so effizient wie möglich ausführt, und anhand einer Reihe von «Benchmarks», also Standard-Performance-Metriken, die Qualität ihrer Konfiguration beurteilen.
Einen grossen Teil der Vorbereitung macht das sogenannte «System Engineering» aus: In den drei Monaten vor dem Event muss das Team seinen Cluster optimal aufstellen und entscheiden, wie die Arbeitslast innerhalb des Systems verteilt werden soll. Anschliessend führen sie die Anwendungen mit unterschiedlichen Konfigurationen mehrmals aus, bis sie die beste Performance erreichen. Sie erhalten auch Zugang zu Cloud-basierten Clustern, die von führenden internationalen Rechenzentren bereitgestellt werden, wo sie dieselben Anwendungen betreiben und unterschiedliche Probleme lösen müssen. Während des Wettbewerbs führen sie schliesslich in Echtzeit die Leistungsfähigkeit ihrer Konfiguration vor: Mit den gleichen Anwendungen, aber unterschiedlichen Datensätzen müssen sie ihr System erneut optimieren, um eine ähnliche Leistung wie in der Trainingsphase zu reproduzieren.
Erfolgreich auf der ISC23
Faveo Hörold, Marcel Ferrari, Hannes Eberhard, Sophia Herrmann, Nicolà Lohr und Alexander Sotoudeh haben die ETH Zürich im vergangenen Mai erfolgreich bei der ISC Student Cluster Competition 2023 in Hamburg vertreten. Sie belegten den dritten Platz in der Gesamtwertung und gewannen den begehrten LINPACK Award, der das schnellste Computersystem auszeichnet.
In diesem Jahr mussten die Teams mehrere Anwendungen aus unterschiedlichen Bereichen ausführen: «FluTAS», eine Strömungssimulation; «POT3D», eine Software zur Lösung von Magnetfeldpotenzialen grosser Himmelskörper wie Planeten oder Sternen; und «Quantum Espresso», eine Reihe von Tools für quantenchemische Berechnungen.
Neben dem während der Vorbereitung und des Wettbewerbs erworbenen Fachwissen – und dem Stolz auf die guten Resultate – begeisterte die jungen Teammitglieder der persönliche Austausch und die Erfahrung, als Team gelernt und gute Leistungen erbracht zu haben. Sophia Herrmann nahm an ihrem ersten Wettkampf teil. Sie freute sich besonders über den Teamgeist und war erstaunt darüber, wie sie die Herausforderungen des Wettbewerbs meisterte. «Ich habe gemerkt, dass ich viel mehr erreichen kann, als ich mir zutraute», erinnert sie sich. «Der Wettbewerb hat mich dazu gebracht, meine Grenzen zu überwinden, und obwohl es manchmal einschüchternd war, bin ich unendlich froh, dass ich teilnehmen durfte. Vor allem an der Seite solch hilfsbereiter Teammitglieder und guter Freunde.» Nicolà Lohr, der auch zum ersten Mal dabei war, beschreibt eine einmalige Gelegenheit, neue Menschen aus der ganzen Welt kennenzulernen und Kontakte zu knüpfen, die für seine spätere Karriere von Nutzen sein könnten.
«Der Wettbewerb hat mich dazu gebracht, meine Grenzen zu überwinden, und obwohl es manchmal einschüchternd war, bin ich unendlich froh, dass ich teilnehmen durfte. Vor allem an der Seite solch hilfsbereiter Teammitglieder und guter Freunde.»Sophia Herrmann, Informatikstudentin im zweiten Jahr und Mitglied im Team RACKlette
Mehr zu den Aufgaben der ISC23
«FluTAS» wird eingesetzt, um das Verhalten von Flüssigkeiten in verschiedenen Systemen zu simulieren, zum Beispiel zur Simulation von Emulsionen – «wie Mayonnaise in der Lebensmittelindustrie oder Konvektion in einem Server-Kühlsystem», erklärt Alexander Sotoudeh.
«externe Seite POT3D» berechnet die Magnetfeldpotenziale für grosse Systeme wie die Sonne. Diese Anwendung kann ausgehend von Daten, die auf der Oberfläche des Objekts gemessen werden, detaillierte Vorhersagen generieren.
«Quantum Espresso» umfasst eine Reihe verschiedener Tools, mit denen Eigenschaften von Atomen und Molekülen auf quantenchemischer Ebene berechnet werden. Diese Anwendung ist hilfreich, um Systeme und Experimente zu simulieren, die die klassische Physik nicht erklären kann.
Mehr Informationen
- Team RACKlette (Website und Kontakt)
- externe Seite Swiss National Supercomputing Centre (CSCS)
- Scalable Parallel Computing Lab (SPCL)
- externe Seite Team RACKlette auf SCC22
- externe Seite Team RACKlette auf ISC 2023 (Interview)