Reconocimiento de Cápsulas de Café con IA

Imagina apuntar con tu teléfono a una cápsula de café y saber al instante cuál es.

Ese es el poder de nuestro primer caso de uso con Capsule Scanner, un ejemplo sencillo pero impactante de cómo la visión artificial puede mejorar las rutinas cotidianas.

 

¿En qué consiste? 

Desarrollamos una solución de IA mobile-first capaz de detectar e identificar diferentes tipos de cápsulas de café en tiempo real. 
 

En su núcleo está un modelo de deep leraning entrenado a medida: YOLO-Nano, una red neuronal convolucional ligera optimizada para ejecutarse directamente en el dispositivo. 

¿Por qué no usar APIs externas?

Aunque APIs externas como OpenAI Vision y Google Vision permiten una integración rápida, no ofrecen la precisión ni la flexibilidad que nuestro caso requiere. 

Entrenando nuestro propio modelo obtuvimos: 

  • Mayor precisión adaptada a nuestras categorías de cápsulas
  • Control total sobre la evolución y entrenamiento del modelo
  • Capacidad de funcionamiento offline con latencia predecible
  • Costo cero por solicitud
  • Privacidad total para el usuario 

Entrenar nuestro propio modelo fue la elección clara. 

¿Por qué YOLO-Nano?

Tras evaluar distintos modelos de detección de objetos (YOLOv5n, MobileNet-SSD, EfficientDet-Lite), YOLO-Nano ofreció el mejor equilibrio entre: 

  • Rendimiento en tiempo real en teléfonos de gama media
  • Tamaño reducido del modelo
  • Precisión fiable en distintas condiciones de iluminación
  • Bajo consumo de memoria y batería 

Al ejecutarse directamente en el dispositivo, el modelo permite un funcionamiento 100 % offline, lo que lo hace ideal para aplicaciones móviles. 

Framework de interferencia 

Evaluamos varios entornos de inferencia, entre ellos TensorFlow Lite, ONNX Runtime Mobile y NCNN. 

Seleccionamos TensorFlow Lite por: 

  • Excelente soporte para cuantización de modelos (INT8, FP16)
  • Arranque rápido y bajo consumo de memoria
  • Compatibilidad nativa con Android e iOS
  • Amplia aceleración por hardware (NNAPI, GPU delegate, Core ML delegate) 

Cómo entrenamos el modelo YOLO-Nano  

Ejecutar ML directamente en dispositivos móviles ofrece velocidad y privacidad, pero requiere un ajuste cuidadoso del tamaño del modelo y optimizar memoria y batería. 

Para permitir el reconocimiento de cápsulas en tiempo real directamente en móviles, entrenamos un modelo YOLO-Nano personalizado siguiendo un camino estructurado y eficiente: 

 

  1. Configuración del entorno 
  • Preparamos un entorno de desarrollo limpio con soporte para aceleración por GPU e integramos herramientas como Roboflow para la gestión del dataset. 

     

  1. Preparación del dataset
  • Grabamos un video de cada tipo de cápsula de 60 segundos.
  • A partir de ese vídeo, Roboflow extrajo imágenes con distintas condiciones de luz y ángulos variados para mejorar la generalización. 
  • Extraímos y etiquetamos 1600 imágenes de 4 tipos diferentes de cápsulas. 

     

  1. Configuración del modelo
  • Seleccionamos YOLO-Nano + TensorFlow Lite por su equilibrio entre velocidad, precisión y tamaño. 
  • Lo ajustamos específicamente para despliegue móvil (Android/iOS). 

     

  1. Entrenamiento del modelo
  • Entrenamos el modelo usando distintas configuraciones, incluyendo flujos de entrenamiento exportados desde Roboflow, nuestras propias estaciones de trabajo equipadas y servidores dedicados. 
  • Todos los enfoques produjeron un rendimiento equivalente, confirmando tanto la estabilidad del dataset como la robustez de la arquitectura YOLO-Nano. 

     

  1. Evaluación de los resultados
  • Alcanzamos una mean Average Precision (mAP) entre 50% y 75%, dependiendo del tipo de cápsula y las condiciones de prueba.
  • El rendimiento se validó mediante curvas precision-recall y pruebas de detección en tiempo real en dispositivos móviles. 

Roboflow: nuestro aliado en materia de conjuntos de datos 

Roboflow es una plataforma integral de Computer Vision que ayuda a crear, entrenar y desplegar modelos de IA personalizados. Simplifica todo el flujo de trabajo, desde la gestión y anotación de datos hasta el entrenamiento, la evaluación y el despliegue. Nos permitió: 

  • Organizar y anotar el dataset
  • Aplicar preprocesamiento y aumentos (rotación, brillo, volteo)
  • Entrenar el modelo
  • Exportar en formato compatible con YOLO
  • Visualizar predicciones e iterar rápidamente 

¿Dónde se puede aplicar esta tecnología? 

Esta tecnología puede extenderse a: 

  • Enriquecer sistemas de inventario digital
  • Automatizar control de calidad
  • Potenciar funciones de accesibilidad
  • Automatización en hogares inteligentes
  • Mejorar experiencias en retail 

Aplicando el proceso de reconocimiento de objetos con IA en otros campos

 

Descubre nuestra experiencia en IA

Si tienes curiosidad por la inteligencia artificial en aplicaciones del mundo real o quieres colaborar, ¡conéctate con SQLI España!