Bilderkennung und -erfassung für Supermarktregale


 

Das Studentenprojekt „Shelf Availability“ nutzte eine Live-Videoübertragung
von einem simulierten Supermarktgang, um Probleme in den Produktregalen zu
erkennen (d. h. leere Regale, Produkte an der falschen Stelle und ungeordnete
Regale). Im Falle eines erkannten Problems, wurde eine Push-Benachrichtigung
mit einem entsprechenden Bild erstellt und an einen Ladenmitarbeiter gesendet.

Das Problem ungeordneter Produktregale ist für Kunden, Mitarbeiter und Manager
gleichermaßen suboptimal. Dieses Projekt sollte drei mögliche problematische
Szenarien angehen:

– Leere Produktregale
– an der falschen Stelle platzierte Produkte
– Unordentliches Erscheinungsbild der Produkte

Beispiel 1: Ein Produkt fehlt

Beispiel 2: Die Regale sehen unordentlich aus

Wie sieht der Arbeitsablauf einer Anwendung für maschinelles Lernen aus, die eine Live-Videoübertragung nutzt?

Arbeitsablauf der Bildverarbeitung und -erkennung

Zunächst wird der Zugang zum Live-Video-Feed über eine passwortgeschützte Website gewährt. Aus diesem Feed wird alle 60 Sekunden ein Bild entnommen, das analysiert werden soll. Da das Bild von einer Fischaugenkamera aufgenommen wurde, wird es zunächst vorverarbeitet, d. h. es wird beschnitten und die unnatürliche Krümmung wird korrigiert. Nun erfolgt die automatische Bildsegmentierung durch Anwendung modernster Algorithmen. Diese segmentierten Bereiche werden für die weitere Beschriftung und Verarbeitung verwendet. Schließlich werden diese bearbeiteten Bildbereiche mit maschinellem Lernen klassifiziert und als potenzielle Problembereiche erkannt.
Ein wichtiger Teil dieses Prozesses ist die Auswahl der zu verwendenden KI-Tools. Durch jahrzehntelange Forschung gibt es viele vorgefertigte Bibliotheken sowie vortrainierte Modelle, die für Bildverarbeitungsprojekte nützlich sind. Hier wurde Python zusammen mit PyTorch und OpenCV verwendet. Anhand der aufgenommenen Bilder wurde eine Reihe von vortrainierten Segmentierungsmodellen getestet und deren Leistung verglichen. Diese Modelle konnten dann beurteilt werden.

Bewertung eines Modells

Anhand von Gütekriterien wird ein Modell bewertet.

Beispiele für Gütekriterien eines trainierten Modells können sein:
1. Genauigkeit: Fähigkeit des Modells, Objekte korrekt zu erkennen und zu klassifizieren.
2. Geschwindigkeit: Objekte schnell, bestmöglich in Echtzeit, zu erkennen.
3. Robustheit: Fähigkeit des Modells, in verschiedenen Umgebungen und unter
verschiedenen Bedingungen wie z.B. Lichtverhältnisse, Objektdichte, Größe und
Rotationen, zu funktionieren.
4. Skalierbarkeit: Fähigkeit des Modells, die Übertragung der Objekterkennung auf andere
Objekte korrekt zu transferieren. Dies inkludiert, auf verschiedene Eingabegrößen und -formate zu skalieren.
5. Benutzerfreundlichkeit: Dieses Gütekriterium beschreibt die einfache Installation,
Konfiguration und Verwendung des Modells.

Zu testen waren die Modelle von:
– Yolo5
– ENet
– UNet
– SalsaNext

Am Ende schnitt Yolo5 fast perfekt und mit nur leichten Fehlern ab, die wahrscheinlich auf die gelegentlich schlechte Bildqualität der Projektdaten zurückzuführen sind. Ebenfalls in Betracht gezogen wurde Yolo8, das mit noch mehr Trainingsdaten eine höhere Genauigkeit aufweist, aber auch mehr Verarbeitungszeit erfordert. Es wurde festgestellt, dass angesichts der Eingabedaten ein Test mit Yolo8 nicht notwendig war.


Fazit
Mit einer Python-Umgebung und Tools wie Pytorch, OpenCV und dem Yolo5-Segmentierungsmodell ist es möglich, ein genaues KI-Bilderkennungsprojekt mit unmittelbarem Nutzen für Einzelhandelsgeschäfte zu erstellen.

 

Hochschule für Technik, Wirtschaft und Medien Offenburg

Campus Offenburg

Badstraße 24
77652 Offenburg
Tel (+49) 781 205-0
Fax (+49) 781 205-214
Campus Gengenbach

Klosterstraße 14
77723 Gengenbach
Tel (+49) 7803 9698-0
Fax (+49) 7803 9698-4449