05. Feb. 2025

Integrierte Bildverarbeitung für autonomes
Fahren in der Logistik

Einblicke in die Abschlussarbeit von Alexander Marquardt: Die zunehmende Automatisierung in der Logistikbranche eröffnet spannende Möglichkeiten – insbesondere im Bereich des autonomen Fahrens. In seiner Masterarbeit untersucht Alexander Marquardt, inwieweit autonome Systeme allein auf Basis von Computer Vision in einer begrenzten logistischen Umgebung realisiert werden können. (Foto v.l.: Manuel Schreiner, Alexander Marquardt)

Autor:in

Alexander Marquardt

Autor:in

Dr. Sigrun Brox

Ein visionäres Projekt: Der „Grand-Stack-Racer“

Zentrales Element der Forschung ist unser interaktiver Demoaufbau, der seit 2022 als Testumgebung für innovative Technologien im Kontext der Industrie 4.0 dient und sich bereits auf zahlreichen Messen großer Beliebtheit erfreut hat (mehr dazu hier: https://accso.de/magazin/software-anfassbar-machen). Während der Aufbau ursprünglich als Demo für Track & Trace Prozesse konzipiert wurde, entstand im Rahmen dieses Abschlussprojekts nun eine Erweiterung für Projekte im Bereich der Computer Vision und legt damit einen Grundstein für zukünftige Entwicklungen, wie z. B. einer autonomen Steuerung des Modellgabelstaplers.

Datengrundlage als wichtigster Treiber für KI-Anwendungen

Der wichtigste Aspekt beim Einsatz von Machine Learning Modellen ist die bewusste Auswahl und Vorbereitung von Trainingsdaten. Für einen sehr spezifischen Einsatzbereich, wie z. B. hier dem „Grand-Stack-Racer“, kann dies bedeuten, dass ein eigener Datensatz konzipiert und aufgebaut werden muss. Die Abschlussarbeit von Alexander gibt für diesen Fall einen tiefen Einblick in den gesamten Prozess, beginnend mit der Aufnahme der Rohdaten. Die Auswahl und Positionierung der Kamera, sowie von Objekten im Datensatz und die Nachstellung von typischen Szenarien sind zentrale Aspekte, die dabei berücksichtigt werden müssen.

Neben den reinen Daten spielen zudem noch Art und Qualität der Annotationen eine wichtige Rolle, da diese zum einen die Auswahl der nutzbaren neuronalen Netze einschränkt und zum anderen einen direkten Einfluss auf den Lernerfolg der Netze haben. Werden die Objekte der Rohdaten beispielsweise nur mit Bounding Boxen markiert, so können neuronale Netze, die pixelgenaue Objektmasken bestimmen können, damit nicht trainiert werden. Natürlich erfordern qualitativ hochwertige Annotationen auch einen zeitlich hohen Aufwand, welcher jedoch inzwischen durch zahlreiche verfügbare und teilweise KI-gestützte, Hilfsmittel deutlich reduziert werden kann. Im Rahmen dieser Arbeit wurde eine Variante mit der Open Source Software „Label Studio“ in Kombination mit dem „Segment-Anything“ Modell angewendet.

So konnte für den „Grand-Stack-Racer“ in kurzer Zeit ein eigener Datensatz erstellt werden, welcher aus 800 Einzelbildern besteht, die mit Objektmasken auf Pixelebene annotiert sind.

Architekturen Neuronaler Netze im Vergleich: CNN vs. Vision Transformer

Praktische Anwendung fand der Datensatz bereits im Training von neuronalen Netzen auf Basis zweier verschiedener Architekturen. Die Arbeit von Alexander beleuchtet dabei auch Randaspekte beim Einsatz der Netze, welche häufig weniger Aufmerksamkeit erhalten. Insbesondere wurden die konkret notwendigen Schritte beschrieben, um Netze wie „Mask R-CNN“ oder „Mask2Former“ auf einem lokalen System einsetzen zu können – ein Aspekt, welcher für viele unserer Kunden mit hohem Bedürfnis an Datensicherheit und -autonomie eine große Rolle spielt.

Die Evaluation der eingesetzten Netze zeigte, dass „Mask2Former“ mit innovativen Ansätzen auf Basis der stetig weiterentwickelten Transformer-Architektur, das Potenzial besitzt, mit weniger Trainingsepochen eine höhere Präzision zu erreichen als etablierte Convolutional Neural Networks wie „Mask R-CNN“. Jedoch zeigte sich generell, dass die höhere Genauigkeit durch präzise Objektmasken auch eine geringere Verarbeitungsgeschwindigkeit mit sich bringt – ein entscheidender Faktor, der vor dem Einsatz in Echtzeitanwendungen abgewägt werden muss.

Fazit und Ausblick

Die Ergebnisse belegen, dass ein autonomes Fahren in einem begrenzten logistischen Umfeld mittels Computer Vision grundsätzlich realisierbar ist, oder von dieser mit wertvollen Daten unterstützt werden kann. Während CNNs weiterhin solide Ergebnisse liefern, zeigen Vision Transformer-Modelle enormes Potenzial für die Zukunft. Als nächster Schritt soll die KI-gestützte Steuerung unseres Modellgabelstaplers weiterentwickelt und optimiert werden. Zudem könnten zusätzliche Sensoren wie LiDAR-Scanner und Tiefenkameras zur Verbesserung der Hinderniserkennung integriert werden.

Mit dieser Arbeit legt Alexander Marquardt einen wichtigen Grundstein für die Weiterentwicklung autonomer Transportsysteme – ein vielversprechender Beitrag zur Zukunft der Logistikautomation.

Vielen Dank an Manuel Schreiner für die Betreuung der Masterthesis.

Hier geht es zur Masterthesis, zwecks Vertiefung: https://assets-8291.accso.de/downloads/20241115_Masterarbeit_Alexander-Marquardt_Bildverarbeitung.pdf

Sie haben Fragen zu Projekten aus dem IoT-Umfeld? Wir fördern innovative IT-Themen in 13 Communities und zeigen Ihnen gerne in unserem Innovation-Lab beispielhafte Lösungen.

Unser Team steht Ihnen zwecks Beratung und Austausch gerne zur Verfügung. Kontaktieren Sie uns!

Name:	CraftSessionId
Beschreibung:	Craft stützt sich auf PHP-Sitzungen, um Sitzungen über Webanfragen hinweg aufrechtzuerhalten. Dies geschieht über das PHP-Session-Cookie. Dieses Cookie verfällt, sobald die Sitzung abgelaufen ist.
Anbieter:	diese Website
Ablaufzeit:	Session

Name:	CRAFT_CSRF_TOKEN
Beschreibung:	Schützt uns und Sie als Benutzer vor Cross-Site Request Forgery-Angriffen.
Anbieter:	diese Website
Ablaufzeit:	Session

Name:	accso-cookie-consent_de
Beschreibung:	Speichert Ihre getroffenen Datenschutzeinstellungen.
Anbieter:	diese Website
Ablaufzeit:	Dauerhaft

Name:	Google Ads Conversion Tracking
Beschreibung:	Google Ads Conversion Tracking verfolgt die Conversion Rate und den Erfolg von Google Ads Kampagnen. Dabei werden Cookies verwendet, um Nutzer zu differenzieren und ihr Verhalten auf der Seite detailliert zu verfolgen und diese Daten mit Werbdaten aus dem Google-Ads-Werbenetzwerk zu verknüpfen.
Anbieter:	Google Ireland Ltd
Ablaufzeit:	90 Tage

Datenschutzeinstellungen

Manuel Schreiner