Willkommen, Professor Siyu Tang
Siyu Tang ist seit Anfang Januar 2020 offiziell als Tenure-Track-Assistenzprofessorin für Computer Vision am Departement Informatik der ETH Zürich tätig. In diesem kurzen Interview stellt sie sich vor.
Frau Professor Tang, willkommen an der ETH! Was sind Ihre aktuellen Forschungsinteressen?
Mein Team trägt den Namen Computer Vision and Learning Group (VLG). Unser Forschungsinteresse liegt im Bereich des maschinellen Sehens, auch in Kombination mit maschinellem Lernen. Wir wollen Algorithmen und Implementierungen entdecken und vorschlagen, die anspruchsvolle Probleme der visuellen Erkennung lösen können. Das Ziel ist es, die Grenzen der robusten maschinellen Wahrnehmung in der realen Welt zu erweitern. Unsere Forschungsaktivitäten konzentrieren sich auf drei verwandte Bereiche.
Der erste Bereich ist das visuelle Erfassen von Menschen in einer nicht kontrollierten Umgebung, in der die Komplexität der visuellen Szenen die Robustheit und die Verallgemeinerung des zugrunde liegenden Modells beeinflusst. Wir arbeiten an der Verbesserung der aktuellen Leistungsfähigkeit beim Tracking von Personen, bei der Wiedererkennung, bei der Posenschätzung und bei der feinkörnigen Aktivitätserkennung. Ein langfristiges Ziel ist die Ableitung detaillierter Darstellungen von Pose, Gestalt, Ausdruck und sozialer Interaktion von Menschen in Bildern und Videos, sodass Computer in der Lage sind, in sinnvoller Weise zu kommunizieren.
Der zweite Schwerpunkt unserer Forschung konzentriert sich auf das Erlernen holistischer Szenendarstellungen. Wir versuchen zu verstehen, welche Darstellungen ein komplexes Schlussfolgern über die reale Welt ermöglichen. Wir wollen die algorithmischen Grundlagen erforschen, damit Computer holistische Darstellungen auf verschiedenen Ebenen der visuellen Granularität und mit verschiedenen Sinneseindrücken wie Bildern und Sprache lernen können.
Der dritte Bereich ist eine effiziente und skalierbare Lern- und Optimierungstechnik. Wir erforschen Berechnungsmodelle, die es Computern ermöglichen, umfangreiche visuelle Inputs wahrzunehmen. Ein langfristiges Ziel ist es, den Lern- und Inferenzprozess zu automatisieren und ihn für weiträumige reale Umgebungen zugänglicher zu machen.
Welche Auswirkungen hat Ihre Forschung auf die Gesellschaft?
Menschen besitzen die bemerkenswerte Fähigkeit, visuelle Szenen wahrzunehmen, Objekte zu erkennen und Aktivitäten innerhalb von Sekundenbruchteilen zu verstehen. Unterdessen steigt die Nachfrage nach automatisierter maschineller Wahrnehmung visueller Daten rasant an. Ihre Einsatzbereiche reichen vom autonomen Fahren bis hin zu persönlichen Robotern. Trotz enormer Forschungsfortschritte in den letzten Jahren ist das menschliche Sehen immer noch ein weitaus robusteres und fehlertoleranteres System als das maschinelle Sehen, wenn es um anspruchsvolle Sehaufgaben in einer realen Umgebung geht. Die Forschungsfrage, die wir zu beantworten versuchen, lautet: Wie können wir robuste Computer-Vision-Systeme schaffen, die in der Lage sind, die Welt so gut wahrzunehmen wie der Mensch. Die Lösung dieses Problems wird tiefgreifende gesellschaftliche und wirtschaftliche Auswirkungen weltweit haben.
Wo haben Sie gearbeitet, bevor Sie an die ETH kamen?
Während der letzten zwei Jahre habe ich eine Forschungsgruppe in der Abteilung für Perzeptive Systeme am Max-Planck-Institut für Intelligente Systeme in Tübingen geleitet. Davor schloss ich 2017 meine Promotion am Max-Planck-Institut für Informatik in Saarbrücken ab.
Welche Lehrveranstaltungen werden Sie an der ETH unterrichten?
Das steht noch nicht fest. Ich möchte zu den Kursen beitragen, die sich mit hochentwickeltem maschinellem Sehen befassen, wahrscheinlich zum Thema, wie man Menschen und ihre Handlungen in der visuellen Welt versteht. In meinen Vorlesungen werde ich versuchen, meine Begeisterung für diese Themen zu vermitteln und verschiedene Ansätze und Algorithmen aus theoretischer und praktischer Sicht zu erklären.
Nennen Sie einen interessanten Fakt über Ihre Forschung.
Unsere Forschung hat starke Verbindungen zu maschinellem Lernen, Optimierung, Computergrafik und AR/VR-Forschung. So ist beispielsweise das Lernen aus visuellen Daten ein klassisches Problem des maschinellen Lernens und treibt die praktische Anwendung der Machine Learning-Forschung voran. Die Integration von Computer-Vision-Technologie in Echtzeit-AR/VR-Geräte ermöglicht eine immersivere Interaktion und definiert neue Herausforderungen für Forschung und Technik. Im Allgemeinen denke ich, dass maschinelles Sehen einer der wichtigsten Aspekte beim Aufbau intelligenter Systeme ist. Es ist die Quelle für herausfordernde und faszinierende Probleme und gleichzeitig von enormer praktischer Bedeutung.