IA

VLA Models

Modèles fondation multimodaux qui prennent en entrée images et instructions textuelles et produisent en sortie des séquences d'actions motrices. Cœur des robots généralistes 2024-2025.

Un VLA model (Vision-Language-Action) est un modèle fondation multimodal qui prend en entrée des images et une instruction textuelle, et produit en sortie une séquence d'actions motrices exécutables par un robot — vecteurs de couples articulaires, déplacements en X/Y/Z, ouverture de gripper. Le terme a été introduit par Google DeepMind dans le papier RT-2 (juillet 2023) et désigne aujourd'hui la principale architecture des robots généralistes : OpenVLA (Stanford, 2024), π0 (Physical Intelligence, 2024), Helix (Figure AI, 2025), GR00T N1 (NVIDIA, 2025), Gemini Robotics (DeepMind, 2025). Les VLA constituent le « cerveau » de l'embodied AI moderne.

Architecture type

Un VLA est généralement construit en trois couches :

Encodeur de vision — extrait une représentation latente d'une ou plusieurs images caméras. Les blocs courants : SigLIP (Google), DINOv2 (Meta), ViT pré-entraîné. Les modèles récents utilisent plusieurs caméras (vue tête, vues poignets) avec fusion croisée.

Encodeur de langage / backbone VLM — un VLM pré-entraîné fournit le raisonnement haut niveau. Modèles utilisés : PaLI-X et PaLM-E pour RT-2, Llama 2 pour OpenVLA, Paligemma (Gemma + SigLIP) pour π0, Eagle 2 pour GR00T N1. Le pré-entraînement web apporte la connaissance commune (objets, relations, sémantique des instructions) qui manque cruellement aux datasets robotiques purs.

Tête d'action — convertit la représentation jointe en commandes motrices. Plusieurs schémas : tokenisation discrète des actions (RT-2, OpenVLA, comme un vocabulaire à 256 entrées par dimension), diffusion d'actions continues (π0 utilise le flow matching pour produire des trajectoires lisses à 50 Hz), ou décodeur autoregressif spécialisé.

Architecture dual-system (2025)

Les modèles 2025 (Helix de Figure, GR00T N1 de NVIDIA, partiellement π0.5) adoptent une architecture dual-system inspirée du Système 1 / Système 2 de Kahneman :

  • Système 2 (lent, délibératif) — un VLM raisonne sur la scène, planifie la sous-tâche, formule l'intention. Cadence 5-10 Hz, peut tourner sur GPU haut de gamme déporté.
  • Système 1 (rapide, réflexe) — un policy network compact convertit l'intention en commandes motrices à haute fréquence (200 Hz) sur l'embedded compute du robot.

Cette séparation résout un dilemme : un grand VLM est trop lent pour la boucle motrice, un petit modèle est trop limité pour la sémantique. Le couplage des deux donne la robustesse des grands modèles avec la réactivité requise pour le contrôle physique.

Entraînement et données

Les VLA sont entraînés en deux phases. Pré-entraînement sur des corpus web massifs (texte + image), hérité du VLM backbone — donne la sémantique générale. Fine-tuning robotique sur des datasets d'épisodes (image + instruction → action), à partir de :

  • Open X-Embodiment (Stanford + 21 institutions, 2024) — 1M+ épisodes, 22 embodiments. Le socle commun de la communauté.
  • DROID (Stanford, 2024) — 76 000 démonstrations sur 564 scènes, dataset domestique.
  • Données propriétaires des constructeurs (Tesla collecte des trajectoires Optimus en interne, Figure exploite ses partenariats industriels).

Les données dominantes sont du teleoperation (un humain pilote le robot, le système enregistre les trajectoires) et de la simulation. Le ratio sim/real varie selon l'approche — π0.5 mise sur la diversité des données réelles, GR00T N1 sur la quantité de simulation.

Limites actuelles

Trois fronts de recherche dominent fin 2025.

Latence et coût d'inférence — un VLA à 7 Md params consomme typiquement 100-200 W en inférence à 10 Hz, contre 30-50 W pour un contrôleur classique. La distillation vers des modèles plus compacts et les puces dédiées (NVIDIA Thor, Tenstorrent) sont actives.

Manipulation fine — la dextérité bi-manuelle longue durée (assembler, plier le linge, manipuler des câbles) reste un point dur. Les datasets manquent de diversité sur ces tâches.

Sécurité et certification — les VLA sont des modèles fondation probabilistes : impossibles à certifier formellement (IEC 61508, ISO 13482). Les déploiements industriels les couplent à des vérificateurs symboliques ou à un humain superviseur.

Standards et spécifications

EU AI Act — modèles GPAI

Les VLA à usage général (cross-tâches, cross-embodiments) tombent dans la catégorie « modèles d'IA à usage général » du règlement UE 2024/1689 — obligations de transparence sur l'entraînement, gestion des risques systémiques au-delà de 10²⁵ FLOPs

Open X-Embodiment

Dataset et benchmark commun (1M+ épisodes, 22 embodiments) — base d'entraînement et d'évaluation de facto des VLA modernes (OpenVLA, π0, GR00T)

Questions fréquentes

Quelle est la différence entre un VLA et un LLM multimodal type GPT-4o ?

GPT-4o, Claude ou Gemini sont des VLM (Vision-Language Models) : ils prennent image + texte en entrée et produisent du texte en sortie. Ils ne savent pas piloter un actionneur.

Un VLA prend les mêmes entrées (image + instruction) mais produit en sortie une séquence d'actions motrices — vecteurs de couples articulaires, déplacements en X/Y/Z, ouverture de gripper. La construction typique : on part d'un VLM pré-entraîné (PaLI-X pour RT-2, Paligemma pour π0, Eagle 2 pour GR00T N1) et on remplace ou complète la tête de génération texte par une tête d'action, fine-tunée sur des millions d'épisodes robotiques.

Pourquoi le terme « VLA » est-il récent ?

Il a été introduit par Google DeepMind dans le papier RT-2 (juillet 2023). Avant RT-2, les politiques robotiques étaient soit symboliques (planificateurs), soit apprises de bout en bout par tâche (BC-Z, RT-1). RT-2 a été le premier à montrer qu'un VLM pré-entraîné sur le web puis fine-tuné sur des données robotiques héritait de capacités émergentes — par exemple, exécuter une commande comme « jette les ordures » sans avoir vu le mot « ordures » dans les données robotiques, en s'appuyant sur la connaissance internet du VLM.

Depuis, OpenVLA (Stanford, juin 2024), π0 (Physical Intelligence, octobre 2024), Helix (Figure AI, février 2025), GR00T N1 (NVIDIA, mars 2025) et Gemini Robotics (Google DeepMind, 2025) ont consolidé l'approche.

Un VLA peut-il tourner en local sur un robot ?

Oui mais c'est tendu. OpenVLA fait 7 Md de paramètres : exécutable sur une RTX 4090 mobile ou un Jetson AGX Orin avec quantification, mais à 5-10 Hz seulement — insuffisant pour le contrôle moteur direct. La plupart des architectures actuelles (Helix, GR00T) déportent donc le module lent (raisonnement) sur un GPU haut de gamme à 5-10 Hz et gardent un module rapide local plus petit à 200 Hz pour la boucle motrice.

La latence cloud reste exclue : impossible de fermer une boucle de contrôle à 200 Hz via un modèle hébergé à distance. Les futurs VLA distillés (1-3 Md params) et les puces dédiées (NVIDIA Thor, Tenstorrent, Etched) visent à exécuter l'ensemble en embedded.

Quels VLA sont open-source ?

Open-source complet (poids + code) : OpenVLA (Stanford, 2024), π0 et π0.5 (Physical Intelligence, 2024-2025, sous licence Apache 2.0), GR00T N1 (NVIDIA, 2025, premier humanoïde foundation model open).

Closed : RT-2 et Gemini Robotics (Google DeepMind), Helix (Figure AI). Les modèles open dominent désormais la recherche académique et l'expérimentation startup. Pour un déploiement industriel, l'écart se resserre rapidement — π0.5 atteint des performances proches des modèles propriétaires sur la plupart des benchmarks fin 2025.

Ressources et documentation