Algorithmus zur Erkennung zurückgelassener Gegenstände in U-Bahn-Systemen

Oktober 8, 2025

Industry applications

Objekterkennung in U‑Bahn‑Systemen: Herausforderungen und Umfang

Zurückgelassene Gegenstände in dicht frequentierten U‑Bahn‑Stationen stellen ein Sicherheits- und Serviceproblem dar. Beispielsweise kann eine persönliche Tasche, die auf einem Bahnsteig zurückgelassen wird, den Personenfluss blockieren, Züge verzögern und Evakuierungen auslösen. Zusätzlich können unbeaufsichtigte Taschen manchmal gefährliche Stoffe enthalten, sodass eine schnelle Alarmierung für die Sicherheit der Fahrgäste wichtig ist. Außerdem verändert sich das Bewegungsmuster der Menschen auf überfüllten Bahnsteigen. Daher müssen Betreiber die Anzahl unbeaufsichtigter Gegenstände abschätzen und schnell reagieren.

Manuelle Überwachung beruht auf menschlichen Operatoren, die CCTV beobachten und Meldungen abgeben. Allerdings lässt die menschliche Aufmerksamkeit nach, und schichtbedingte Ermüdung reduziert die Wachsamkeit. Außerdem skaliert die manuelle Nachprüfung nicht, wenn während Hauptverkehrszeiten große Zahlen von Pendlern einen Knotenpunkt überschwemmen. In stark frequentierten U‑Bahn‑Systemen können Menschenteams etwa kurzzeitige Ereignisse übersehen, wenn der Passagierfluss stark ansteigt. Daher kann automatisierte Erkennung Abdeckungslücken schließen und die Wartezeit für die Einsatzreaktion verkürzen.

Automatisierte Erkennung bietet Geschwindigkeit und gleichbleibende Abdeckung. So kann etwa automatisierte Erkennung das Vorhandensein von Fremdobjekten melden, die Bewegung von Objekten verfolgen und Betreiber innerhalb von Sekunden benachrichtigen. Zusätzlich erlauben automatisierte Systeme den Metro‑Managern, die Anzahl der Fahrgäste in der Nähe eines Vorfalls zu zählen. Folglich können Mitarbeiter Einsatzkräfte effizienter leiten. Ebenso unterstützen automatisierte Werkzeuge die Fahrgeld­erhebung und die Steuerung von Plattformmengen, indem sie Ereignisdaten an Betriebs‑Dashboards liefern.

Forscher haben den TRL für Werkzeuge zur Erkennung unbeaufsichtigter Gegenstände bewertet und Schritte vom Labor bis zur Bereitstellung hervorgehoben. Die Übersicht stellt fest: „Automatic unattended object detection is not only a security imperative but also a critical enabler for the future of smart urban transit systems“ (Quelle). Zum Kontext kombinieren einige Teams Video‑ und Zugverfolgungsdaten, um zurückgelassene Vorfälle mittels Maximum‑Likelihood‑Schätzung zu modellieren und die Modellparameter für stationsspezifische Einsatzpläne zu schätzen (Quelle). Betreiber, die eine praktische Einführung planen, sollten Tests mit vorhandenen Datenquellen und Setups mit einer einzelnen Datenquelle vorsehen, bevor sie auf zwei Datenquellen zur Redundanz skalieren. Zusätzlich wandelt Visionplatform.ai bestehende CCTV‑Systeme in ein Live‑Sensornetz um, so dass Teams die Anzahl der Fahrgäste zählen und Passagierzählungen aus Video erstellen können, ohne sich an einen Anbieter zu binden.

ai object detection techniques: deep learning for left-behind objects

Tiefe konvolutionale neuronale Netze treiben die moderne Objekterkennung voran. Zunächst lernen DCNNs räumliche Merkmale aus Bildern und klassifizieren dann Regionen in Objektklassen. Weiterhin benötigen Trainings‑Pipelines gelabelte Frames, Validierungssets und Hyperparameter‑Tuning. Beispielsweise kennzeichnen Teams Taschen, Koffer und menschliche Posen, damit das Modell ein Fremdobjekt von routinemäßigem Gepäck unterscheiden kann. Zusätzlich erweitert Augmentierung kleine Datensätze durch Spiegeln, Zuschneiden und Anpassung der Helligkeit. Folglich lernt das Modell, mit Lichtänderungen und unterschiedlichen Kamerawinkeln umzugehen.

Beliebte Modellfamilien umfassen YOLO und SSD. Auch zweistufige Detektoren wie Faster R‑CNN sind für hochpräzise Aufgaben weiterhin nützlich. Bei der Bereitstellung balancieren Ingenieure zwischen Geschwindigkeit und Genauigkeit. So tauschen YOLO‑Varianten etwas Präzision gegen sehr geringe Latenz ein, was für Echtzeit‑Anforderungen in der Metro geeignet ist. In der Praxis hat sich der TRL vieler Objekterkennungsalgorithmen verbessert und einige sind produktionsreif. Die Forschung zu Systemen für die Erkennung und Verfolgung von Personen zeigt, dass Vision plus Radarfusion die Zuverlässigkeit in überfüllten Szenen erhöhen kann (Quelle).

Beim Training ist Sorgfalt bei Modellparametern erforderlich. Teams müssen außerdem Overfitting auf eine einzelne Stationskonfiguration vermeiden. Daher ist stationsübergreifende Validierung wichtig. Weiterhin reduziert Transferlernen den Bedarf an riesigen gelabelten Datensätzen. Vortrainierte Backbones beschleunigen beispielsweise die Konvergenz und senken die Rechenanforderungen. Außerdem justieren Teams Schwellenwerte und implementieren einen Erkennungsalgorithmus, der zeitliche Persistenz berücksichtigt. So reduziert das System Fehlalarme, wenn ein fallengelassenes Objekt nur kurzzeitig ist. Schließlich zeigen Deep‑Learning‑Systeme messbare Verbesserungen: Visionbasierte DCNNs können die manuelle Nachprüfung verringern und die Erkennungsleistung gegenüber klassischen Merkmalsmethoden verbessern (Quelle). Visionplatform.ai unterstützt flexible Modellstrategien, sodass Betreiber vorgeschlagene Modelle auf eigenen Daten auswählen, anpassen oder selbst erstellen können, während die Verarbeitung lokal oder am Edge für Compliance und Geschwindigkeit bleibt.

Metrobahnsteig mit zurückgelassenem Gepäck

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

video feed and data collection: setting up real-time surveillance

Die Platzierung der Kameras bestimmt den Erfolg der Erkennung. Bringen Sie Kameras so an, dass Bahnsteigkanten, Treppen und Vorhallen mit überlappenden Sichtfeldern abgedeckt sind. Wählen Sie als Nächstes Auflösung und Bildrate passend zur Aufgabe. Ein 1080p‑Stream mit 15–25 fps balanciert beispielsweise oft Detailgrad und Bandbreite. An Stellen mit schnellen Bewegungen werden auch höhere Bildraten verwendet. Außerdem müssen Bildkompressions­einstellungen Details für die Erkennung kleiner Objekte erhalten und gleichzeitig den Speicher handhabbar halten.

Das Netzwerkdesign muss Engpässe vermeiden. Daher planen Ingenieure VLANs, QoS und dedizierte Links für Echtzeit‑Video. Zudem hilft Edge‑Processing. Beispielsweise reduziert das Ausführen von Modellen auf NVIDIA‑Jetson‑Klasse‑Geräten die Netzwerklast und senkt die Latenz. Visionplatform.ai kann auf GPU‑Servern oder Edge‑Geräten bereitgestellt werden und Ereignisse via MQTT streamen, sodass Betriebssysteme strukturierte Ereignisse statt Rohvideo erhalten.

Labeling und Datensatzarbeit sind wichtig. Zunächst definieren Teams Klassen und Annotationsregeln. Dann markieren Annotatoren Begrenzungsrahmen, Objektzustände und zeitliche Labels für den unbeaufsichtigten Status. Für das Training sollten die gesammelten Daten Variationen in Beleuchtung, Verdeckung und Personendichte enthalten. Zusätzlich simuliert Augmentierung schlechte Bedingungen. Datenschutz hat Priorität. Daher sollten während der Datenerfassung und Analyse Gesichter verpixelt oder anonymisiert werden. Speichern Sie Daten lokal, um bei Bedarf GDPR‑ und EU‑AI‑Act‑Konformität zu unterstützen.

Die fortlaufende Aufbewahrung von Video‑Streams wirft Fragen zu Speicher und Datenlebenszyklus auf. Richtlinien mit hoher Auflösung und langer Aufbewahrung können etwa mehrere Petabytes erfordern. Implementieren Sie daher Aufbewahrungstiere und automatisches Löschen. Integrieren Sie außerdem das VMS, damit das System vorhandene Archive für das Nach­training wiederverwendet. Schließlich kombinieren Sie Video mit anderen Datentypen wie Ankunfts‑ und Abfahrtszeiten oder Zugverfolgungsdaten, um Labels anzureichern und die Wahrscheinlichkeit abzuschätzen, dass Fahrgäste beim Türenschluss zurückbleiben.

algorithm design to detect foreign object and unattended luggage

Das Design eines effektiven Erkennungsalgorithmus beginnt mit Hintergrundmodellierung. Zuerst berechnen Sie ein dynamisches Hintergrundmodell und subtrahieren es, um Kandidaten für den Vordergrund zu finden. Anschließend wenden Sie Morphologie und Größenfilter an, um kleine, irrelevante Artefakte auszuschließen. Auf diese Kandidaten wird dann ein Objekterkennungsmodell angewendet, das Taschen, Koffer oder von Menschen gehaltene Gegenstände klassifiziert. Zudem etabliert Tracking über Frames Persistenz. Bleibt ein Objekt beispielsweise für eine konfigurierte Wartezeit stationär, markiert das System es als unbeaufsichtigt.

Die Einstellung von Schwellenwerten beeinflusst Fehlalarme. Kalibrieren Sie daher Schwellenwerte pro Kamera und pro Bereichstyp. Schwellenwerte für zeitliche Persistenz, Mindestfläche und Nähe zur Bahnsteigkante passen beispielsweise die Sensitivität an. Visionplatform.ai unterstützt lokale Kalibrierung, sodass Teams vor Ort anpassen können. Anomalieerkennungs‑Layer können ungewöhnliche Objektbewegungen oder plötzliches Auftauchen in Sperrzonen erkennen. Die Kombination von regelbasierter Logik und gelernten Modellen reduziert somit Spuralarme.

Das Handling von Verdeckungen und die Erkennung kleiner Objekte erfordern Multi‑Scale‑Strategien. Wenden Sie zunächst Feature‑Pyramiden im neuronalen Backbone an, um hochauflösende Hinweise zu erhalten. Nutzen Sie dann zeitlichen Kontext, sodass eine teilweise verdeckte Tasche, die in mehreren Frames erscheint, trotzdem erkannt wird. Multi‑Kamera‑Fusion hilft zusätzlich: Überlappende Kameras bieten verschiedene Perspektiven, um Verdeckungen aufzulösen. Auch die Fusion mit Mikrowellenradar kann das Objektvolumen erkennen, selbst wenn die Kamerasicht blockiert ist, was die Zuverlässigkeit in überfüllten Szenen verbessert (Quelle).

Schließlich profitieren die Reduktion von Fehlalarmen und die Systemverbesserung von Nachbearbeitung und Operator‑Feedback. Ermöglichen Sie zum Beispiel, dass Operatoren Alarme bestätigen; diese Bestätigungen fließen dann in das Nachtraining des Modells zurück. Nutzen Sie außerdem regelmäßige Reviews, um Modellparameter anzupassen und die Erkennungsgenauigkeit für verschiedene Stationslayouts zu verbessern. Diese Schritte halten das Erkennungssystem robust, während sich Passagierfluss und Plattform‑Setups ändern.

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

detection system architecture: integrating automated detection in metros

Architekturentscheidungen beeinflussen Latenz, Kosten und Resilienz. Zuerst müssen Designer zwischen Edge und Cloud entscheiden. Edge‑Bereitstellung reduziert Latenz und bewahrt Daten lokal, während die Cloud Modellupdates zentralisieren kann. In Metro‑Betrieben ist niedrige Latenz für Sicherheitsalarme wichtig. Daher führen viele Betreiber Inferenz am Edge aus. Visionplatform.ai ermöglicht On‑Premise‑ oder Edge‑Verarbeitung mit Integrationen zu führenden VMS‑Plattformen, sodass Betreiber Kontrolle behalten und EU‑Konformitätsziele erreichen.

Sensorfusion erhöht die Zuverlässigkeit. Die Kombination von Kamerastreams mit Mikrowellenradar erlaubt dem Erkennungssystem beispielsweise, Objekte auch bei schlechter Beleuchtung zu verifizieren. Zugverfolgungsdaten sowie Ankunfts‑ und Abfahrtszeiten helfen, unbeaufsichtigte Gegenstände mit Türschlüssen und Passagierzahlen zu korrelieren. Integrieren Sie automatisierte Erkennungsereignisse in den Betriebs‑Stack. Streamen Sie etwa strukturierte Ereignisse über MQTT zu Dashboards, Incident‑Management und SCADA‑Systemen, damit Teams schneller reagieren.

Edge‑Geräte müssen Rechen‑ und Netzwerkbedarf erfüllen. Planen Sie daher GPU‑Server oder spezialisierte Beschleuniger entsprechend der Kameradichte ein. Sichern Sie Modelle auf Geräten und verwenden Sie Versionierung. Implementieren Sie außerdem redundanten Speicher und Failover für kritische Standorte. Zur Bandbreitenoptimierung senden Sie nur Ereignismetadaten an zentrale Server und behalten vollständiges Video in lokalen VMS‑Archiven. Dieses Muster reduziert die kontinuierliche Übertragung von Video‑Streams und unterstützt eine skalierbare Ausrollung im gesamten Metro‑Netz.

Alarm‑Workflows sollten einfach und geführt sein. Zuerst sendet das Erkennungssystem gestufte Alarme an das diensthabende Personal. Operatoren erhalten Kontext wie Kamera‑ID, Objektklasse, zeitgestempelte Frames und vorgeschlagene Reaktionen. Integrieren Sie anschließend Dienstpläne und Eskalationsbäume, sodass Alarme an die richtige Einsatzkraft geleitet werden. Ermöglichen Sie zudem, dass Operatoren Alarme annotieren, um das Modelltraining zu unterstützen. Schulen Sie schließlich Operatoren im Umgang mit Fehlalarmen, um die Erkennungsleistung hoch zu halten. Für praktische Hinweise zu Bahn‑Use‑Cases und Integrationen siehe die Seiten zur Plattform-Menschenmengensteuerung mit Kameras und zur Erkennung zurückgelassener Gepäckstücke an Bahnhöfen.

Leitstellen-Dashboard mit Alarmvorschauen

performance evaluation and future upgrades for metro detection system

Definieren Sie Metriken vor dem Pilotbetrieb. Präzision und Recall messen zunächst Korrektheit und Abdeckung. Die Latenz erfasst, wie schnell ein Alarm einen Operator erreicht. Messen Sie außerdem Arbeitseinsparungen, indem Sie manuelle Prüfzeiten vor und nach der Einführung vergleichen. In Testszenarien hat etwa visionbasierte DCNN‑Überwachung die manuelle Nachprüfungsarbeit um bis zu 70 % reduziert, während die Erkennungsleistung erhalten blieb oder stieg (Quelle).

Praktische Piloten liefern verwertbare Daten. Einige Einsätze kombinieren Kamerazählungen mit Zugverfolgungsdaten und Passagierflussmodellen, um während Spitzenzeiten die Anzahl der Zurückgebliebenen zu schätzen. Das vorgeschlagene Modell kann Maximum‑Likelihood‑Schätzung nutzen, um die Wahrscheinlichkeit zu kalibrieren, dass Fahrgäste beim Türenschluss zurückbleiben. Mehr zur Modellierung des Risikos zurückgelassener Fahrgäste und zur Schätzung findet sich in der Forschung, die Zurückgebliebene in überfüllten Netzen ableitet (Quelle). Systeme in Städten wie der Metro Peking haben Crowd‑Analytics und Erkennung zurückgelassener Gegenstände getestet, um den Betrieb zu optimieren.

Berechnen Sie den ROI unter Einbeziehung von Vorfallsvermeidung, reduzierten Verzögerungen und geringerem manuellen Personalaufwand. Berücksichtigen Sie auch verbesserte Fahrgastzufriedenheit durch reduzierte Wartezeiten und geringere Reisezeit‑Variabilität. Zukünftige Upgrades werden reichhaltigere Sensoren hinzufügen. Das Hinzufügen von Radar‑Schichten und Umweltsensoren erhöht etwa die Resilienz gegenüber Verdeckungen und Dunkelheit (Quelle). Weiterhin werden Teams föderiertes Lernen einsetzen, um Modelle stationsübergreifend adaptiv zu halten und gleichzeitig die Privatsphäre zu wahren.

Planen Sie schließlich iterative Upgrades. Sammeln Sie zunächst Daten aus dem Live‑Betrieb für das Nachtraining. Verfeinern Sie dann Modellparameter und retrainieren Sie auf stationsspezifischen Datentypen. Testen Sie außerdem fortgeschrittene Methoden zur Erkennung kleiner Objekte und neue Loss‑Funktionen, um die Erkennung kompakter Fremdobjekte zu verbessern. Integrieren Sie darüber hinaus die Systeme in den Stationsbetrieb für automatische Umleitungs­vorschläge basierend auf Passagierzahlen und Routenwahlmustern. Visionplatform.ai hilft Metro‑Managern, auf bestehendem VMS bereitzustellen, Modelle lokal zu halten und verwertbare Ereignisse zu streamen, sodass Plattformen von passiven Kameras zu aktiven Sensoren werden, die Wartezeiten reduzieren und sicherere, effizientere öffentliche Verkehrssysteme unterstützen.

FAQ

What is left-behind object detection in metro environments?

Die Erkennung zurückgelassener Gegenstände in Metro‑Umgebungen nutzt Kameras und Modelle, um unbeaufsichtigte Objekte auf Bahnsteigen und Vorhallen zu finden. Sie kombiniert Tracking, Klassifikation und zeitliche Logik, um zu entscheiden, wann ein Objekt als unbeaufsichtigt gilt und Aufmerksamkeit erfordert.

How does AI improve detection versus human monitoring?

KI arbeitet kontinuierlich und hält eine gleichbleibende Sensitivität über Schichten hinweg, sodass sie kurzlebige Ereignisse findet, die Menschen übersehen könnten. Außerdem integriert KI sich in Betriebssysteme, um die Wartezeit bis zur Reaktion zu verkürzen und strukturierte Alarme zu senden.

Which models work best for real-time alerts in stations?

Modelle wie YOLO und SSD bieten niedrige Latenz und hohen Durchsatz für Echtzeit‑Erkennung. Für hochpräzise Nachprüfung können zweistufige Detektoren wie Faster R‑CNN parallel auf Stichproben‑Frames eingesetzt werden.

How do systems handle privacy and compliance?

Eine On‑Premise‑Bereitstellung und die Anonymisierung von Gesichtern in Trainingsdaten schützen die Privatsphäre und helfen, Anforderungen des EU‑AI‑Acts zu erfüllen. Zusätzlich reduziert das lokale Behalten von Video und das Streamen nur von Ereignissen die Datenexposition.

Can the system count passengers and help with crowd control?

Ja. Systeme können die Anzahl der Fahrgäste zählen und Passagierzählungen aus Video erzeugen, um Crowd‑Management‑Tools zu versorgen. Diese Daten helfen, Wartezeiten abzuschätzen und Entscheidungen zu Weiterleitungen oder Bahnsteigöffnungen zu unterstützen.

What role does sensor fusion play?

Sensorfusion kombiniert Video mit Radar oder Zugverfolgungsdaten, um das Vorhandensein eines Fremdobjekts auch bei schlechter Sicht zu bestätigen. Fusion erhöht die Robustheit, besonders in belebten oder verdeckten Szenen.

How do operators reduce false positives?

Teams justieren Schwellenwerte, nutzen Regeln zur zeitlichen Persistenz und binden Operator‑Feedback‑Schleifen zum Retraining ein. Zudem reduziert die Kombination aus gelernten Klassifizierern und regelbasierten Filtern Störalarme.

What metrics should metro managers track?

Verfolgen Sie Präzision, Recall, Latenz und Arbeitseinsparungen, um die Effektivität zu beurteilen. Überwachen Sie außerdem Reaktionszeiten bei Vorfällen sowie Änderungen bei Reisezeit oder Wartezeit als betriebliche Ergebnisse.

Are there examples of cities testing these systems?

Städte und Studien nennen Tests in der Metro Peking und Fallstudien in anderen großen Netzen. Forschung zur TRL von unbeaufsichtigter Objekt­erkennung und Pilot­ergebnisse bietet Hinweise für gestufte Einführungen (Quelle).

How can Visionplatform.ai help deploy a detection system?

Visionplatform.ai wandelt bestehende CCTV‑Anlagen in ein operatives Sensornetz um und betreibt Modelle On‑Premise oder am Edge. Außerdem integriert die Plattform sich in VMS und streamt Ereignisse, sodass Stationen sofort auf Erkennungen reagieren können, während Daten und Modelle unter Kontrolle der Betreiber bleiben.

next step? plan a
free consultation


Customer portal