Anticiper les prochains mouvements et prédire les mêmes avec précision est certainement excitant mais difficile… mais pas pour Facebook ! Facebook AI a récemment développé Anticipative Video Transformer (AVT), un modèle basé sur l’attention de bout en bout pour l’anticipation de l’action dans les vidéos…

Un processus d’apprentissage automatique pour anticiper des activités 

Pour des applications allant des voitures autonomes à la réalité augmentée, il est important que les systèmes d’intelligence artificielle puissent anticiper les actions futures des personnes. Considérons une situation très simple où un véhicule autonome est sur la route à un panneau d’arrêt. Maintenant, la situation exige que l’assistant virtuel prédise si un piéton traverse la route ou non. L’anticipation des activités futures est pourtant un enjeu difficile pour l’IA car elle nécessite à la fois de prédire la répartition multimodale des activités futures et de modéliser le déroulement des actions précédentes.

Formation Création et développement d'une activité de formation

Pour relever ce défi, deux chercheurs, à savoir Rohit Girdhar de Facebook AI Research et Kristen Grauman de l’Université du Texas à Austin, se sont réunis pour proposer Anticipative Video Transformer (AVT). 

Facebook a dévoilé ce dernier processus d’apprentissage automatique qui est capable de prédire les actions futures en utilisant une interprétation visuelle. Le nouveau modèle est basé sur les avancées récentes des architectures Transformer, en particulier pour le traitement du langage naturel (NLP) et la modélisation d’images. Ce modèle est basé sur l’attention de bout en bout pour l’anticipation de l’action dans les vidéos. 

A quoi servirait l’AVT de Facebook ?

Étant perçu comme une petite roue du plus grand véhicule de Facebook pour la réalité augmentée (AR) ou le métaverse, l’AVT analyse une activité pour montrer le résultat potentiel.

« Nous entraînons le modèle pour prédire les actions et les fonctionnalités futures en utilisant trois pertes. Premièrement, nous classons les caractéristiques dans la dernière image d’un clip vidéo afin de prédire l’action future étiquetée ; deuxièmement, nous régressons la caractéristique de trame intermédiaire vers les caractéristiques des trames suivantes, ce qui entraîne le modèle à prédire ce qui vient ensuite ; troisièmement, nous entraînons le modèle pour classer les actions intermédiaires. Nous avons montré qu’en optimisant conjointement les trois pertes, notre modèle prédit les actions futures de 10 à 30 % mieux que les modèles entraînés uniquement avec une attention bidirectionnelle.

Essentiellement, l’outil avertirait les gens avant qu’ils ne commettent des erreurs à temps. Facebook donne un exemple concret. Au cas où vous seriez sur le point de ramasser une poêle chaude, l’AVT avertirait la personne en fonction de ses interactions passées avec cette poêle.

Vous pourrez peut-être aussi économiser de l’eau pendant que vous faites la vaisselle, et potentiellement vous aider à éviter les dangers lorsque vous cuisiner. Cette technologie vous avertit si vous êtes sur le point de faire une action qui pourrait vous blesser. 

Sur le plan professionnel, de nombreuses tâches que vous devez effectuer ont un guide étape par étape à respecter. Les nouvelles recrues dans une entreprise par exemple peuvent accomplir leurs missions plus facilement puisque cette technologie leur dira quoi faire. Cela serait potentiellement plus efficace par rapport à une personne physique, car les instructions seraient affichées juste devant vous comme si elles faisaient partie du monde réel.

Dans le contexte des lunettes AR, cela pourrait fournir une gamme d’indicateurs utiles pour aider à guider les personnes, à la maison ou au travail, dans la réalisation d’une grande variété de tâches.

L’équipe de Facebook pense également que l’AVT peut être utile pour des tâches autres que l’anticipation telles que :

  • L’apprentissage auto-supervisé, une méthode d’apprentissage automatique en intelligence artificielle ;
  • La recherche de schémas et de limites d’action ;
  • La reconnaissance générale d’actions dans des tâches qui impliquent la modélisation de la séquence chronologique des actions.

Il faudra un certain temps avant que cette technologie ne soit déployée. Cependant, le projet souligne le développement continu de l’IA de Facebook ainsi que l’évolution des fonctionnalités qui sera probablement intégrée à une étape à venir de ses projets de lunettes AR.