Detección de artículos genéricos con LaneHawk

LaneHawk tiene dos métodos para detectar los productos que se quedan sin escanear situados en la parte baja del carrito (Bottom Of Basket (BOB) ítems). El mecanismo primario es relacionar el producto con una imagen utilizando la tecnología ViPR. Esto funciona siempre y cuando la imagen de referencia esté disponible. Sin embargo, hay artículos a los que cambian el envase, o bien un producto poco habitual que se coloca en la parte baja del carrito sin imagen de referencia. En este caso LaneHawk utiliza el sistema de detección de artículos genéricos (generic item detection (GID).

 

La diferencia entre ViPR y GID se puede explicar mediante una analogía. Supongamos que alguien va a una perrera y hace fotografías de 100 perros. Ahora coge un perro de esos 100 y le hace una segunda foto. Entonces coge un ordenador para comparar a cuál de las 100 fotos corresponde con foto que él ha hecho (obviamente él sabe qué perro que es, pero supongamos que, por alguna razón, quiere que el equipo se lo diga). El ordenador puede hacer esto mediante la comparación de la nueva imagen con el conjunto de las 100, una por una.

 

Ahora bien, supongamos que esta persona hizo 50 fotos a San Bernardos y 50 fotos a caniches. Supongamos, además, que después coge otro caniche diferente (no uno de los 50) y también le hace una foto. Esta vez quiere que el equipo le diga si el perro de su nueva foto es un caniche o un San Bernardo (como antes, está claro que sabe qué es un caniche, pero él sólo quiere comprobar si el equipo se lo puede decir). En este caso, el ordenador no puede comparar la nueva imagen con las 100 porque el nuevo caniche no corresponde al conjunto de los 100. El ordenador hará una comparación aproximada.

 

El primer ejemplo corresponde a la tecnología ViPR para encontrar productos BOB, donde se hace una comparación exacta. El segundo caso se refiere a la tecnología GID, donde se hace una comparación aproximada.

 

En la tecnología GID hay dos partes de la comparación aproximada. La primera es la que llamamos el vector de apariencia (appearance vector).  Se trata de una serie de números que son una medida de cómo es la imagen en general. El vector de apariencia se puede considerar como una versión borrosa de la imagen.

La segunda parte es el movimiento entre imágenes sucesivas. Se ilustra en la imagen anterior. Las líneas rojas muestran las partes del logo de Pepsi, que se corresponden entre las dos imágenes. En base a esta conexión, el movimiento anterior se puede calcular.


El vector de apariencia y movimiento se alimentan en un clasificador de patrones que decide si un elemento BOB está presente o no.