Generische Warenerkennung mit LaneHawk

LaneHawk bietet zwei Methoden zur Erfassung von Waren im unteren Wagenbereich (Bottom Of Basket – BOB). Der Hauptmechanismus basiert auf dem Vergleich der Ware mit einem Referenzbild und arbeitet dafür mit ViPR. Das funktioniert immer dann wenn das entsprechende Referenzbild in der Datenbank vorhanden ist.   Es gibt jedoch auch Situationen – wenn beispielsweise die Umverpackung geändert wurde oder ein neues, unbekanntes Produkt im Wagen liegt, wo kein Referenzbild in der Datenbank gefunden werden kann. In einem solchen Fall greift LaneHawk auf die generische (GID) Bilddatenbank zu.

 

 

Die Beziehung zwischen ViPR und GID kann über eine Analogie erklärt werden. Angenommen jemand macht in einem Hundezwinger Bilder von 100 verschiedenen Hunden. Anschließend sucht er sich einen Hund aus und macht ein zweites Bild von diesem Tier. Mithilfe eines Computers will er dann herausfinden zu welchem der 100 Hunde dieses zweite Hundebild gehört. Diesen Vergleich führt der Computer ganz einfach aus  indem er dieses Bild mit jedem der 100 anderen Hundebilder vergleicht.

 

Nehmen wir jetzt an, dass jemand 50 Bilder von Bernhardiner Hunden und 50 Bilder von Pudeln aufnimmt. Anschließend fotografiert er noch einen Pudel, der nicht zu den 50 gehört, die er davor aufgenommen hat. Dieses Mal will er, dass der Computer ihm sagt, ob dieses Bild einen Puddel oder einen Bernhardiner zeigt. In diesem Fall kann der Computer nicht einfach nur das neue Bild mit den 100 vorhandenen Bildern vergleichen, da keine genaue Übereinstimmung zustande kommen kann. Das heißt hier muss der Computer einen sogenannten Fuzzy- oder unklaren Vergleich machen. 

 

ViPR zur Erkennung von BOB Waren funktioniert also wie im ersten Fall beschrieben, d.h. das Suchobjekt ist genau spezifiziert. Dagegen basiert GID auf einem Fuzzy-Vergleich wie in Fall zwei beschrieben.

 

Der Fuzzy Vergleich bei GID beruht auf zwei Bestandteilen: den ersten nennen wir Erscheinungbild. Dabei handelt es sich um eine Zahlenanordnung, die angibt wie das Bild generell aussieht. Das Erscheinungsbild entspricht also einer verschwommenen Version des Bildes.

 

Der zweite Teil ist die Bewegung zwischen aufeinanderfolgenden Bildern. Verdeutlicht wird das im oberen Bild. Die roten Linien zeigen die Teile des Pepsi Logos, das bei zwei verschiedenen Bildern als zusammenhängend erkannt wurde. Basierend auf diesem Zusammenhang kann die vorausgegangene Bewegung berechnet werden.  

 

Erscheinungsbild und Bewegung werden an ein Musterberechnungssystem weitergereicht, das dann definiert ob ein BOB Gegenstand präsent ist oder nicht.