Auf dem Weg zu einer menschenähnlichen Wahrnehmung für selbstfahrende Autos
Freiburg, 13.09.2022
Wie können mobile Roboter Umgebung korrekt wahrnehmen und einschätzen – selbst wenn Teile der Umgebung durch andere Objekte verdeckt werden? Das ist eine zentrale Frage, die für autonomes Fahren gelöst werden muss, damit zum Beispiel auch in belebten Straßen von Großstädten ein sicheres Navigieren durch die Umgebung möglich wird. Während der Mensch sich die vollständige physische Struktur von Objekten vorstellen kann, selbst wenn diese teilweise verdeckt sind, verfügen die bisherigen Algorithmen der künstlichen Intelligenz (KI), die es Robotern und selbstfahrenden Fahrzeugen ermöglichen, ihre Umgebung wahrzunehmen, nicht über diese Fähigkeit.
Roboter mit KI können sich zwar schon heute selbstständig in ihrer Umgebung zurechtfinden und durch sie navigieren, wenn sie gelernt haben, wie diese Umgebung aussieht. Allerdings ist die Wahrnehmung und korrekte Einschätzung von unbekannten, teilweise verdeckten Dingen und beweglichen Objekten oder Menschen bislang eine große Herausforderung. Einen großen Schritt zur Lösung dieses Problems haben nun der Freiburger Roboterforscher Prof. Dr. Abhinav Valada und Doktorand Rohit Mohan vom Robot Learning Lab der Universität Freiburg unternommen, den sie in zwei gemeinsamen Veröffentlichungen vorstellen.
Eine Aufgabe, deren Lösung mehr Sicherheit verspricht
Die beiden Freiburger Wissenschaftler haben die sogenannte amodale panoptische Segmentierungsaufgabe entwickelt und ihre Lösbarkeit mit Hilfe von KI-Ansätzen nachgewiesen. Bisher erfassen autonome Fahrzeuge mit Hilfe von panoptischer Segmentierung die Umgebung. Das bedeutet, dass sie bisher nur vorhersagen können, welche Pixel eines Bildes zu welchen „sichtbaren“ Regionen eines Objekts wie einer Person oder eines Autos gehören, und Instanzen dieser Objekte identifizieren können. Was ihnen bisher fehlt, ist die Fähigkeit, auch die gesamte Form von Objekten vorherzusagen, selbst wenn diese teilweise von anderen Objekten verdeckt werden. Die neue Aufgabe der Wahrnehmung mit amodaler panoptischer Segmentierung ermöglicht dieses ganzheitliche Verständnis der Umgebung.
Amodal meint in diesem Fall, dass von einer teilweisen Verdeckung von Objekten abstrahiert werden muss – statt sie als Fragmente zu betrachten, sollten sie in ihrer Ganzheit gesehen werden. So kann eine neue Qualität der visuellen Umgebungserfassung möglich werden, die für die Verkehrssicherheit autonom fahrender Autos einen enormen Fortschritt bedeuten würde.
Potential zur Verbesserung des visuellen Verständnisses städtischer Szenen
Im neuen Aufsatz, der auf der Konferenz IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) veröffentlicht wurde, haben die Forscher etablierte Benchmark-Datensätze um die neue Aufgabe ergänzt und öffentlich nutzbar gemacht. Sie rufen Wissenschaftler*innen nun dazu auf, neue KI-Algorithmen zu entwickeln, um die Aufgabe zu lösen. Ziel dieser Aufgabe ist es, die pixelgenaue semantische Segmentierung der sichtbaren Regionen von amorphen Hintergrundklassen wie Straßen, Vegetation, Himmel und die Instanz-Segmentierung der sichtbaren und verdeckten Objektregionen von verschiedenen Klassen wie Autos, Lastwagen und Fußgängern zu erstellen.
Der Benchmark und alle Datensätze sind auf einer Webseite öffentlich zugänglich und inklusive zweier Lösungsvorschläge zur Verfügung gestellt. „Wir sind zuversichtlich, dass neue KI-Algorithmen für diese Aufgabe Roboter in die Lage versetzen werden, die visuelle Erfahrung nachzuahmen, die Menschen haben, indem sie die vollständige physische Struktur von Objekten wahrnehmen“, erklärt Valada. „Die amodale panoptische Segmentierung wird bei nachgelagerten automatisierten Fahraufgaben, bei denen die Verdeckung eine der Herausforderungen darstellt, wie Tiefenschätzung, optischer Fluss, Objektverfolgung, Bewegungsvorhersage usw., erheblich helfen. Mit fortschrittlicheren KI-Algorithmen für diese Aufgabe kann die visuelle Erkennungsfähigkeit für selbstfahrende Autos revolutioniert werden. Wenn beispielsweise jederzeit die gesamte Struktur der Verkehrsteilnehmer*innen wahrgenommen wird, unabhängig von Teilverdeckungen, kann so das Unfallrisiko erheblich minimiert werden.“
Darüber hinaus könnten automatisierte Fahrzeuge durch Ableitung der relativen Tiefenanordnung von Objekten in einer Szene komplexe Entscheidungen treffen, etwa in welche Richtung sie sich zum Objekt bewegen müssen, um eine klarere Sicht zu erhalten. Um diese Zukunftsvisionen Realität werden zu lassen, wurde die Aufgabe auf der Konferenz AutoSens, die im Autoworld Museum in Brüssel stattfand, Fachleuten der Automobilindustrie vorgestellt.
Faktenübersicht:
- Abhinav Valada ist Juniorprofessor und Leiter des Robot Learning Lab am Institut für Informatik der Universität Freiburg sowie Mitglied des Zentrums BrainLinks-BrainTools.
- Er forscht hauptsächlich zu Themen an der Schnittstelle von Robotik, maschinellem Lernen und Computer Vision wie etwa grundlegende Probleme der Umgebungswahrnehmung von Robotern, Zustandsschätzung und Planung mit Hilfe von Lernansätzen, die es Robotern ermöglichen, in komplexeren Bereichen und unterschiedlichen Umgebungen zuverlässig zu arbeiten. Sein Ziel ist die Entwicklung von skalierbaren, lebenslang lernenden Robotersystemen.
- Robot Learning Lab: Das Team um Valada möchte neue Verfahren entwickeln, die mobilen Robotern ermöglichen, auf sozialverträgliche und sichere Weise durch belebte Umgebungen wie Fußgängerzonen und Bürgersteige zu navigieren. Ihr Verhalten lernen die Bots mit Hilfe von Algorithmen, die auf Teilbereichen der Künstlichen Intelligenz wie Deep Learning und Reinforcement Learning beruhen.
- Originalveröffentlichungen: Mohan, Rohit, Valada, Abhinav: “Amodal Panoptic Segmentation”, IEEE/ CVF International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 21023-21032, 2022.
Mohan, Rohit, Valada, Abhinav: “Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation”: IEEE Robotics and Automation Letters (RA-L), vol. 7, no. 4, pp. 9302-9309, 2022.
- Abhinav Valada und Rohit Mohan wurden auf der Konferenz AutoSens 2022 für ihre Arbeit mit dem Preis "Most Novel Research" geehrt.
- Weitere Informationen: http://amodal-panoptic.cs.uni-freiburg.de/
- Erklärvideo: „Amodal Panoptic Segmentation“
Im Gegensatz zur panoptische Segmentierungsausgabe (mittig) erkennt die amodale panoptische Segmentierungsausgabe (unten) beim Ursprungsbild (oben) ganze Objekte einschließlich ihrer verdeckten Bereiche, beispielsweise bei Autos. (Abbildungen v.o.: Berkeley DeepDrive; Abhinav Valada; Abhinav Valada)
Kontakt:
Juniorprofessor. Dr. Abhinav Valada
Robot Learning Lab
Albert-Ludwigs-Universität Freiburg
Tel.: 0761 203-8025
E-Mail: valada@cs.uni-freiburg.de
Sarah Brender
Hochschul- und Wissenschaftskommunikation
Albert-Ludwigs-Universität Freiburg
Tel.: 0761 203-95391
E-Mail: sarah.brender@pr.uni-freiburg.de