Reconocimiento de Cápsulas de Café con IA

Imagina apuntar con tu teléfono a una cápsula de café y saber al instante cuál es.

Ese es el poder de nuestro primer caso de uso con Capsule Scanner, un ejemplo sencillo pero impactante de cómo la visión artificial puede mejorar las rutinas cotidianas.

¿En qué consiste?

Desarrollamos una solución de IA mobile-first capaz de detectar e identificar diferentes tipos de cápsulas de café en tiempo real.

En su núcleo está un modelo de deep leraning entrenado a medida: YOLO-Nano, una red neuronal convolucional ligera optimizada para ejecutarse directamente en el dispositivo.

¿Por qué no usar APIs externas?

Aunque APIs externas como OpenAI Vision y Google Vision permiten una integración rápida, no ofrecen la precisión ni la flexibilidad que nuestro caso requiere.

Entrenando nuestro propio modelo obtuvimos:

Mayor precisión adaptada a nuestras categorías de cápsulas
Control total sobre la evolución y entrenamiento del modelo
Capacidad de funcionamiento offline con latencia predecible
Costo cero por solicitud
Privacidad total para el usuario

Entrenar nuestro propio modelo fue la elección clara.

¿Por qué YOLO-Nano?

Tras evaluar distintos modelos de detección de objetos (YOLOv5n, MobileNet-SSD, EfficientDet-Lite), YOLO-Nano ofreció el mejor equilibrio entre:

Rendimiento en tiempo real en teléfonos de gama media
Tamaño reducido del modelo
Precisión fiable en distintas condiciones de iluminación
Bajo consumo de memoria y batería

Al ejecutarse directamente en el dispositivo, el modelo permite un funcionamiento 100 % offline, lo que lo hace ideal para aplicaciones móviles.

Framework de interferencia

Evaluamos varios entornos de inferencia, entre ellos TensorFlow Lite, ONNX Runtime Mobile y NCNN.

Seleccionamos TensorFlow Lite por:

Excelente soporte para cuantización de modelos (INT8, FP16)
Arranque rápido y bajo consumo de memoria
Compatibilidad nativa con Android e iOS
Amplia aceleración por hardware (NNAPI, GPU delegate, Core ML delegate)

Cómo entrenamos el modelo YOLO-Nano

Ejecutar ML directamente en dispositivos móviles ofrece velocidad y privacidad, pero requiere un ajuste cuidadoso del tamaño del modelo y optimizar memoria y batería.

Para permitir el reconocimiento de cápsulas en tiempo real directamente en móviles, entrenamos un modelo YOLO-Nano personalizado siguiendo un camino estructurado y eficiente:

Configuración del entorno

Preparamos un entorno de desarrollo limpio con soporte para aceleración por GPU e integramos herramientas como Roboflow para la gestión del dataset.

Preparación del dataset

Grabamos un video de cada tipo de cápsula de 60 segundos.
A partir de ese vídeo, Roboflow extrajo imágenes con distintas condiciones de luz y ángulos variados para mejorar la generalización.
Extraímos y etiquetamos 1600 imágenes de 4 tipos diferentes de cápsulas.

Configuración del modelo

Seleccionamos YOLO-Nano + TensorFlow Lite por su equilibrio entre velocidad, precisión y tamaño.
Lo ajustamos específicamente para despliegue móvil (Android/iOS).

Entrenamiento del modelo

Entrenamos el modelo usando distintas configuraciones, incluyendo flujos de entrenamiento exportados desde Roboflow, nuestras propias estaciones de trabajo equipadas y servidores dedicados.
Todos los enfoques produjeron un rendimiento equivalente, confirmando tanto la estabilidad del dataset como la robustez de la arquitectura YOLO-Nano.

Evaluación de los resultados

Alcanzamos una mean Average Precision (mAP) entre 50% y 75%, dependiendo del tipo de cápsula y las condiciones de prueba.
El rendimiento se validó mediante curvas precision-recall y pruebas de detección en tiempo real en dispositivos móviles.

Roboflow: nuestro aliado en materia de conjuntos de datos

Roboflow es una plataforma integral de Computer Vision que ayuda a crear, entrenar y desplegar modelos de IA personalizados. Simplifica todo el flujo de trabajo, desde la gestión y anotación de datos hasta el entrenamiento, la evaluación y el despliegue. Nos permitió: