Intelligence artificielle : à quoi s'attendre en 2018 ? - Partie 1 -

Comme chaque année en décembre, les spécialistes de l’intelligence artificielle se sont réunis, cette fois à Long Beach (Californie), pour partager les derniers résultats de leurs travaux lors de la conférence NIPS (Neural Information Processing Systems).

A l’origine, cette conférence était confidentielle, mais au vu de l’intérêt phénoménal pour l’IA à travers le monde, elle est devenue un des événements les plus prisés de l’année. NIPS demeure l’occasion pour la communauté, composée essentiellement d’universitaires mais aussi d’employés des GAFA, d’échanger sur les derniers progrès dans leurs disciplines et de récompenser les travaux les plus prometteurs.

Au-delà de cette conférence, l’IA a définitivement marqué l’année 2017 : des budgets monstrueux ont été alloués à la recherche ou à la création de startups, les entreprises se sont livrées à une  bataille sans merci pour recruter les meilleurs talents (Google offre plus de 3 millions $ par an aux ingénieurs spécialistes Deep Learning d’NVIDIA par exemple), et même si on reste très loin du fantasme de l’IA générale, des avancées marquantes ont eu lieu, et NIPS est un des endroits privilégiés pour les recenser. Ce début d’année 2018 est l’occasion de réaliser un tour d’horizon des derniers progrès en matière d’intelligence artificielle (dont certains étaient présentés à NIPS), et ce dans ses divers sous-domaines : reconnaissance d’image, reconnaissance du langage naturel ou encore l’analyse de données.

Computer Vision

Un des principaux domaines d’application de l’IA est celui qui vise à apprendre aux machines à comprendre les images (computer vision). Comprendre est un terme vague qui regroupe plusieurs notions, la machine devant procéder par étapes, à commencer par la classification : savoir qu’une image est une image de chat, par exemple. Vient ensuite la localisation, le fait de déterminer où exactement se situe le chat sur l’image en question. Mais une image ne contient rarement qu’un seul objet, et les algorithmes doivent être capables de les détecter tous (object detection) et de les isoler un par un (instance segmentation) : ici un chat, là un chien, et là, un canard.

Source: Fei-Fei Li, Andrej Karpathy & Justin Johnson (2016) cs231n, Lecture 8 – Slide 8, Spatial Localization and Detection (01/02/2016).  http://cs231n.stanford.edu/slides/2016/winter1516_lecture8.pdf

Les différentes techniques développées pour ces fonctions se mesurent les unes aux autres au travers de benchmarks publics, basés notamment sur ImageNet, la gigantesque base de données d’images taggées coordonnée par l’université de Stanford. Parmi ces benchmarks, un des plus utilisés est le ILSVRC : l’évolution des scores ILSVRC permet de jauger des progrès de l’IA en matière de computer vision. On mesure le taux d’erreur, donc plus le score est faible, plus le modèle est performant. Source: Jia Deng (2016). ILSVRC2016 object localisation: introduction, results. Slide 2. http://image-net.org/challenges/talks/2016/ILSVRC2016_10_09_clsloc.pdf

Si ces benchmarks sont utiles, pour mieux se représenter les progrès en matière de computer vision, la vidéo ci-dessous est plus parlante.

Le système de détection présenté, astucieusement baptisé YOLO, est capable d’identifier des objets en temps réel dans une vidéo, extrêmement rapidement et avec une fiabilité redoutable. Une des difficultés rencontrées est la capacité à reconnaître des objets très petits. Là encore, les progrès récents sont fulgurants, et l’image ci-dessous montre que les derniers modèles approchent la perfection.

 

Hu and Ramanan. 2016. Finding Tiny Faces. [Online] arXiv: 1612.04402. arXiv:1612.04402v1  

En matière de segmentation, c’est FusionNet qui a marqué les esprits cette année. Le système, basé sur du Deep Learning, est très prometteur pour des domaines allant de la santé aux véhicules autonomes. La vidéo ci-dessous montre son utilisation dans ce contexte précis.