# Embodied AI

> IA intégrée à un corps physique (robot, drone, véhicule) capable de percevoir, raisonner et agir dans le monde réel. Marché humanoïdes projeté à 38 Md$ en 2035 (Goldman Sachs).

- **Catégorie** : IA
- **URL** : https://www.romaindelfosse.fr/glossary/embodied-ai/

---

L'**embodied AI** (IA incarnée, ou *physical AI*) désigne les systèmes d'intelligence artificielle intégrés à un **corps physique** — robot humanoïde, manipulateur industriel, drone, véhicule autonome — capables de **percevoir** leur environnement (caméras, lidar, capteurs de force), **raisonner** sur la situation et **agir** sur le monde via des actionneurs (moteurs, grippers, roues). Contrairement aux LLM qui traitent uniquement de l'information symbolique, l'embodied AI compose avec la friction, l'inertie, l'occlusion et la latence motrice du monde réel. Le sujet est devenu central depuis 2023-2024 grâce à la convergence de trois facteurs : modèles fondation pour la robotique, datasets massifs cross-embodiment et effondrement du coût hardware (Unitree R1 à 5 900 $ en 2025).

## Définition technique

Un système embodied AI articule trois capacités en boucle continue :

**Perception** — capteurs multimodaux : caméras RGB et profondeur (RealSense, ZED), lidar, IMU, encodeurs proprioceptifs (position et couple des articulations), capteurs de force tactiles. La fusion de ces flux produit une représentation de l'état du monde et du robot.

**Raisonnement** — auparavant dominé par des planificateurs symboliques et des contrôleurs MPC (Model Predictive Control), il est désormais porté par des **modèles fondation** : VLA (Vision-Language-Action) qui prennent en entrée image + instruction textuelle et produisent des séquences d'actions, et *world models* qui apprennent une dynamique simulée pour planifier en latent.

**Action** — commandes motrices vers les actionneurs, généralement à plusieurs niveaux de hiérarchie : politique haute fréquence (200 Hz pour le contrôle moteur), politique moyenne fréquence (10-30 Hz pour les actions atomiques), planificateur basse fréquence (1-2 Hz pour les sous-objectifs).

La boucle perception-raisonnement-action s'exécute généralement entre **30 et 200 Hz** selon la criticité — plus rapide que toute action humaine consciente, mais avec des cycles de planification long terme qui peuvent durer plusieurs secondes.

## Le paysage 2024-2025

Quatre familles d'acteurs structurent le champ :

**Hyperscalers et fondations** : NVIDIA (Project GR00T, Isaac Sim, GR00T N1 release mars 2025 — premier modèle fondation humanoïde ouvert), Google DeepMind (Gemini Robotics, RT-2, MuJoCo-Warp), Meta AI (Habitat simulator, ego4D dataset).

**Constructeurs humanoïdes** : Tesla (Optimus, intégration interne en production), Figure AI (Helix, premier VLA contrôlant un humanoïde au complet à haute fréquence — partenariat BMW), 1X (Neo pour usage domestique), Boston Dynamics (Atlas, transition électrique 2024), Apptronik (Apollo), Unitree (R1 à 5 900 $).

**Spécialistes VLA** : Physical Intelligence (π0, π0.5 fin 2024 — basé sur Paligemma/Gemma), Skild AI, Sanctuary AI, Covariant.

**Plateformes verticales** : Waymo et Tesla FSD pour la conduite autonome, Agility Robotics (Digit pour la logistique, partenariats Amazon, GXO).

## Datasets et simulation

L'entraînement à grande échelle exige des **datasets cross-embodiment** : Open X-Embodiment (1M+ épisodes, 22 embodiments, 21 institutions, 2024) est devenu le socle commun. DROID, BridgeData V2 et RT-1 complètent. La <em>diversité</em> compte plus que le volume — apprendre une compétence sur 5 robots différents généralise mieux que 100 démonstrations sur un seul.

La **simulation physique** (Isaac Sim, MuJoCo, Habitat) reste critique : elle permet de générer des millions d'épisodes en parallèle pour un coût marginal. MuJoCo-Warp (DeepMind + NVIDIA, 2025) accélère les workloads d'un facteur 70x. Le défi du transfert simulation → réalité est le sujet propre du <em>sim-to-real transfer</em>.

## Limites et débats ouverts

Trois limites structurelles freinent encore le déploiement à grande échelle.

**Données rares pour la dextérité fine** : la manipulation bi-manuelle, les tâches longues (« plier le linge ») et les interactions avec objets déformables (tissu, câbles, liquides) restent difficiles. Les datasets actuels couvrent surtout du <em>tabletop manipulation</em> en environnement contrôlé.

**Sécurité et certification** : les humanoïdes en environnement humain non contrôlé exigent un niveau de sécurité fonctionnelle (IEC 61508, ISO 13482) que les modèles fondation actuels ne savent pas garantir formellement. La supervision humaine reste obligatoire pour la plupart des cas d'usage.

**Économie** : le ROI dépend du coût horaire de la main-d'œuvre humaine remplacée. Aux États-Unis et en Europe, la barre est ~3-5 $/heure équivalent robot pour devenir rentable face à un opérateur logistique. À 20 000 $ d'investissement amorti sur 5 ans, c'est faisable. À 100 000 $, ça ne l'est pas. Les modèles économiques se construisent à mesure que les prix baissent.


## Chiffres clés

- Goldman Sachs projette un marché des robots humanoïdes à 38 milliards de dollars d&#39;ici 2035, avec 50 000 à 100 000 unités livrées en 2026 et un coût unitaire descendant à 15 000–20 000 $ à grande échelle *(Goldman Sachs Research — Humanoid Robot Outlook — 2025)*

- Le constructeur chinois Unitree a lancé son humanoïde R1 en juillet 2025 à 5 900 $, niveau de prix considéré inatteignable un an plus tôt et illustration de l&#39;effondrement des coûts hardware *(Humanoids Daily — 2025)*

- Le dataset Open X-Embodiment, fruit d&#39;une collaboration entre 21 institutions, regroupe plus d&#39;un million d&#39;épisodes de manipulation sur 22 embodiments robotiques différents — socle d&#39;entraînement des VLA modernes (OpenVLA, π0, GR00T N1) *(Stanford / Open X-Embodiment Collaboration — 2024)*

- MuJoCo-Warp, collaboration annoncée en 2025 entre Google DeepMind et NVIDIA, accélère les workloads de simulation robotique d&#39;un facteur 70x, repoussant les limites du sim-to-real à grande échelle *(NVIDIA — GR00T N1 launch — mars 2025)*



## Questions fréquentes

### Quelle est la différence entre Embodied AI et un LLM comme ChatGPT ?

Un LLM traite et génère du langage à partir d'inputs textuels (parfois image). Il n'a ni capteurs, ni actionneurs, ni boucle physique. L'embodied AI dispose d'un corps (robot, drone, véhicule) qui perçoit l'environnement (caméras, lidar, capteurs de force) et agit sur lui (moteurs, gripper, roues).La différence centrale est la boucle de retour physique : l'embodied AI doit composer avec friction, inertie, occlusion et latence motrice — contraintes totalement absentes du texte. C'est pour cela que faire passer un LLM à un robot exige un VLA (Vision-Language-Action) qui produit des commandes motrices, pas du texte.

### L&#39;embodied AI, c&#39;est juste de la robotique avec un autre nom ?

Non, c'est un changement de paradigme. La robotique classique repose sur des contrôleurs spécifiques par tâche, programmés explicitement (PID, MPC, planificateurs symboliques). L'embodied AI utilise des modèles fondation (VLA, world models) entraînés sur des millions d'épisodes et capables de généraliser à des tâches jamais vues — ce qu'aucun contrôleur classique ne sait faire.La transition est analogue à celle du NLP : règles → modèles statistiques → transformers fondation. La robotique classique reste indispensable pour la couche bas niveau (contrôle moteur, sécurité fonctionnelle, certifications), mais le « cerveau » qui décide quoi faire devient un modèle généraliste.

### Pourquoi est-ce un sujet 2024-2025 alors que la robotique existe depuis des décennies ?

Trois facteurs ont convergé. Modèles fondation matures : RT-2 (Google DeepMind, 2023) puis OpenVLA (Stanford, 2024) ont prouvé qu'on peut transférer la connaissance des LLM/VLM vers des actions motrices avec un comportement émergent (tâches non vues à l'entraînement).Datasets massifs : Open X-Embodiment (1M+ épisodes, 22 embodiments, 21 institutions) a fait pour la robotique ce qu'ImageNet a fait pour la vision en 2012.Coût hardware effondré : Unitree R1 à 5 900 $ en 2025 contre des humanoïdes à 100 000 $ et plus il y a cinq ans. Côté entreprise, NVIDIA (Project GR00T), Tesla (Optimus), Figure (Helix), Physical Intelligence (π0), Boston Dynamics et 1X poussent simultanément avec des moyens significatifs.

### Quels secteurs sont concernés à court terme ?

Logistique et entrepôts : picking, manipulation de colis, stocking — partenariats Amazon-Agility Robotics, Figure-BMW. Industrie : assemblage, contrôle qualité, manutention — Tesla intègre Optimus en production interne, Mercedes pilote Apptronik Apollo. Conduite autonome : Waymo et Tesla FSD utilisent une approche embodied AI à grande échelle.À moyen terme : aide à domicile (1X Neo, Apptronik Apollo), service et hôtellerie, healthcare (assistance soignants). Les freins sont moins technologiques que réglementaires (ISO 13482, EU AI Act haut risque), économiques (ROI vs main-d'œuvre humaine très variable selon les pays) et d'acceptabilité sociale.



## Ressources

- [Embodied AI Workshop (CVPR)](https://embodied-ai.org/?utm_source=romaindelfosse&amp;utm_medium=glossaire&amp;utm_campaign=embodied-ai) — CVPR

- [Open X-Embodiment Dataset &amp; Benchmark](https://robotics-transformer-x.github.io/?utm_source=romaindelfosse&amp;utm_medium=glossaire&amp;utm_campaign=embodied-ai) — Stanford / 21 institutions

- [What is Embodied AI?](https://www.nvidia.com/en-us/glossary/embodied-ai/?utm_source=romaindelfosse&amp;utm_medium=glossaire&amp;utm_campaign=embodied-ai) — NVIDIA Glossary

- [Embodied AI: From LLMs to World Models (Survey)](https://arxiv.org/abs/2509.20021?utm_source=romaindelfosse&amp;utm_medium=glossaire&amp;utm_campaign=embodied-ai) — Tsinghua University — arXiv

