Intelligence artificielle : à quoi s'attendre en 2018 ? - Partie 2 -

Pour se repérer dans l’espace, un véhicule autonome devra impérativement être capable de distinguer les différents objets qui sont dans son champ de vision, et les solutions telles que FusionNet pourraient rendre de grands services.

Mais il ne suffira pas de savoir repérer un objet, il faudra également être capable de le suivre (tracking) quand il est en mouvement, parfois très rapidement. Ici, les progrès viendront de la recherche en IA (comme par exemple le projet Goturn par des chercheurs de Stanford) mais aussi d’une nouvelle génération de capteurs : les caméras event-based. Ces caméras d’un nouveau genre, encore à l’état de prototype, font déjà merveille dans les laboratoires.

Elles permettent de réaliser le tracking avec de bien meilleures performances (puissance de calcul, rapidité, précision) et pourraient rapidement débarquer dans nos appareils grands publics (drones, voitures, smartphones, …). Une fois que le système a identifié les différents éléments présents sur une image, la compréhension est loin d’être achevée : faut-il encore pouvoir déterminer ce qui se passe, quelles actions sont en train d’effectuer les objets/personnes dans la scène. S’il est relativement trivial de déterminer qu’un être humain est présent sur une photo, il est moins évident de déduire ce qu’il est précisément en train de faire. Pour réaliser cette performance, une des approches est de décomposer le corps humain et analyser les positions relatives de chacun des membres. La vidéo ci-dessous montre les travaux d’une équipe de chercheurs de Berkeley (à découvrir en détails ici).

Les progrès sont considérables quant à la capacité à traiter une grande quantité d’information en temps réel. La fin de la vidéo donne quelques indices quant aux applications possibles : les équipes de sport professionnel ont par exemple énormément à gagner à analyser avec précision le positionnement exact des corps de leurs athlètes pendant les matchs et les entrainements, ce qui était jusqu’alors totalement impossible. Les équipes de sport US témoignent régulièrement de leur utilisation de l’IA en 2017, et 2018 devrait voir cette tendance se confirmer. En outre, une fois que l’on est capable de déterminer avec précision les mouvements d’un individu, on peut les recréer en 3D, par exemple pour des applications de téléprésence comme celle de Microsoft Research ci-après.  

 

Compréhension du langage naturel

Outre la compréhension des images via computer vision, un des autres principaux sous-domaines de l’IA est la compréhension du langage naturel (Natural Language Processing, NLP). Il décrit la capacité à comprendre l’écrit (et par extension la parole, puisque le speech to text est désormais pratiquement un problème résolu). Là encore, la technologie a beaucoup progressé, notamment du fait de l’utilisation du Deep Learning. Dans le domaine de la traduction automatique, le passage de Google Translate au Deep Learning a permis un saut quantique dans la qualité des résultats (lire à ce sujet l’excellent papier de Wired). Pour comprendre le sens d’un texte, il est important d’en comprendre la tonalité : s’il est négatif, positif, ou neutre. En matière d’e-commerce ou de modération, cela permet d’apprécier le contenu d’un avis ou d’un commentaire.

Un groupe de chercheurs emmenés par Alec Radford d’OpenAI ont découvert, un peu malgré eux, une technique de Deep Learning donnant des résultats bluffants pour l’analyse de sentiments, qu’ils ont baptisée the sentiment neuron : l’animation ci-dessous montre le fonctionnement du sentiment neuron, qui analyse un texte caractère après caractère et en détermine la tonalité. 

Quand une machine a réussi à saisir le sens d’un texte, on peut tenter de lui demander de le résumer. Là encore, alors qu’on pensait encore récemment que seul un être humain avait les capacités d’abstraction nécessaires, l’IA avance à grands pas. Romain Paulus, qui travaille pour Einstein de Salesforce, a publié avec ses collègues des résultats bluffants sur un modèle Deep Learning capable de résumer un texte. On peut le voir à l’oeuvre dans les exemples ci-dessous : si le tout n’est pas parfait pour le moment, cela donne un aperçu de l’état de l’art.