Sim-to-real transfer

Q: Pourquoi entraîner en simulation plutôt que directement sur le robot réel ?

Trois raisons. Vitesse : un simulateur GPU-accéléré peut générer 100-1000 fois plus d'épisodes par heure qu'un robot physique, et tourner en parallèle sur des milliers d'environnements simultanés. Coût : un humanoïde à 50 000 $ qui se casse pendant un essai brutal coûte cher ; en simulation, le crash est gratuit. Sécurité : on peut tester des politiques exploratoires (RL) sans risquer un humain ou un équipement.Le contrepoint est le reality gap : la simulation est toujours imparfaite (frottements approximés, capteurs idéalisés, dynamique de contact simplifiée), donc une politique parfaite en sim peut échouer en réel. Les techniques de sim-to-real transfer existent précisément pour franchir ce fossé.

Q: Qu'est-ce que la domain randomization ?

La domain randomization consiste à entraîner la politique en variant aléatoirement les paramètres physiques du simulateur à chaque épisode : masse des objets, frottements, couleurs, positions initiales, latences capteurs, bruit moteur. L'agent ne voit jamais deux fois exactement la même physique.Le pari : si la politique fonctionne sur un large nuage de simulations différentes, le monde réel ressemblera à une de ces simulations possibles, et la politique généralisera. C'est l'approche qui a permis à OpenAI de résoudre le Rubik's Cube avec une main robotique (2019). NVIDIA Automatic Domain Randomization (ADR) élargit progressivement les plages de randomisation au fur et à mesure que l'agent maîtrise les versions plus simples — un curriculum auto-généré.

Q: Quels sont les simulateurs majeurs ?

MuJoCo (DeepMind, open-source) — référence académique pour la dynamique articulée et le contact. Utilisé par OpenAI, DeepMind, Stanford. Isaac Sim / Isaac Lab (NVIDIA) — simulation GPU-accélérée massivement parallèle, rendu photoréaliste RTX, premier choix industriel. Habitat (Meta) — simulateur 3D photoréaliste optimisé pour la navigation et l'interaction domestique. SAPIEN (UC San Diego), RoboCasa (NVIDIA), ManiSkill (Hillbot) — environnements de manipulation.Pour la conduite autonome : CARLA (Intel Labs, open), Waymax (Google), NVIDIA DRIVE Sim. Chaque simulateur a ses biais — un robot transféré entre simulateurs n'est pas garanti de fonctionner sans réajustement.

Technique pour entraîner un robot ou un agent en simulation puis déployer la politique apprise dans le monde réel, en franchissant le reality gap.

Le sim-to-real transfer (souvent abrégé sim2real) désigne l'ensemble des techniques permettant d'entraîner un agent — typiquement un robot — dans un environnement simulé, puis de déployer la politique apprise dans le monde réel sans réentraînement coûteux. La motivation est simple : la simulation est mille fois plus rapide et infiniment moins risquée que le monde physique. Le défi est tout aussi simple : aucune simulation n'est parfaitement fidèle, et la politique entraînée sur une physique idéalisée échoue souvent face à la friction réelle, au bruit capteur ou aux variations d'éclairage. L'écart entre les deux mondes s'appelle le reality gap, et toute la sophistication du sim-to-real consiste à le franchir.

Le reality gap en pratique

Un simulateur physique (MuJoCo, Isaac Sim, Habitat) approxime la réalité avec des modèles : intégrateurs numériques pour la dynamique, contacts ponctuels au lieu de zones de contact réelles, frottements de Coulomb, capteurs sans bruit ni latence. Ces approximations sont nécessaires pour atteindre des cadences de simulation de l'ordre de 1000-100 000 Hz, mais elles introduisent des écarts systématiques avec le monde réel.

Une politique entraînée à exploiter ces approximations apprend des comportements qui n'existent pas dans la réalité — par exemple, pousser un objet en s'appuyant sur une dynamique de contact propre au simulateur. Au transfert, la politique échoue. C'est ce qu'on appelle le sim2real gap.

Trois grandes familles de techniques

Domain randomization

La technique la plus utilisée. À chaque épisode d'entraînement, on randomise les paramètres physiques : masse des objets (±20 %), coefficients de frottement, latences moteurs, bruit capteurs, couleurs et textures. La politique ne voit jamais deux fois exactement la même physique, donc elle ne peut pas mémoriser une configuration spécifique — elle doit apprendre des comportements robustes au bruit. Si la randomisation couvre un nuage assez large, le monde réel ressemble à une des simulations possibles, et la politique généralise.

OpenAI a poussé cette idée avec Automatic Domain Randomization (ADR) lors du projet Rubik's Cube (2019) : l'algorithme élargit progressivement les plages de randomisation au fur et à mesure que l'agent maîtrise les versions plus simples — un curriculum auto-généré. Au final, l'équivalent de 13 000 ans d'expérience simulée a été nécessaire, mais le résultat tenait face à une main robotique réelle, y compris quand un humain prodait l'objet avec une girafe en peluche.

Domain adaptation

Au lieu de rendre la politique robuste au bruit, on apprend une transformation entre les observations simulées et les observations réelles. Par exemple, un GAN apprend à transformer les images du simulateur en images "à l'apparence réelle", ou à l'inverse, à projeter les images réelles dans la distribution simulée que la politique connaît. Approche plus complexe que la randomization, plus rare en pratique.

System identification + fine-tuning

On mesure les paramètres physiques du robot réel (masses, frottements, latences moteur) sur des essais ciblés, on calibre le simulateur en conséquence, on entraîne dessus, puis on fait un court fine-tuning sur quelques heures d'épisodes réels. C'est l'approche dominante en 2025 pour les déploiements industriels : compromis pragmatique entre robustesse et précision.

L'écosystème simulation 2025

Quatre simulateurs structurent la recherche et l'industrie.

MuJoCo (DeepMind, open-source depuis 2021) reste la référence académique pour la dynamique articulée et le contact. Sa version GPU MuJoCo-Warp (2025), portée conjointement avec NVIDIA, accélère les workloads d'un facteur 70x — rendant possible l'entraînement de modèles fondation robotiques (GR00T N1) sur des dizaines de millions d'épisodes en quelques jours.

NVIDIA Isaac Sim / Isaac Lab combine simulation physique PhysX, rendu photoréaliste RTX et parallélisation massive (jusqu'à 16 000 environnements simultanés sur un seul H100). Standard de facto industriel pour les humanoïdes (Tesla, Figure, 1X, Apptronik utilisent tous Isaac).

Habitat (Meta AI) est optimisé pour la navigation et l'interaction domestique avec des scans 3D photoréalistes (Replica, HM3D). Il sert de base à Spot AI (Boston Dynamics + Meta) et à de nombreuses recherches en embodied AI.

CARLA et Waymax dominent côté conduite autonome — Waymax (Google, 2024) ajoute une simulation à 1000 véhicules simultanés pour entraîner les politiques de planification.

Limites et débats actuels

Le sim-to-real reste imparfait sur trois fronts.

Contacts riches et objets déformables — les simulateurs modélisent mal les frottements collants, les tissus, les câbles, les liquides. La manipulation bi-manuelle de matériaux souples (plier le linge, défaire un nœud) reste un défi 2025-2026.

Capteurs propriétaires — un lidar Hesai, un capteur tactile DIGIT, une caméra événementielle ne sont pas modélisés finement par les simulateurs standard. Les politiques entraînées sur des modèles génériques transfèrent mal.

Données réelles toujours nécessaires — la communauté converge sur une approche hybride : 90 % de simulation pour le pré-entraînement, 10 % de données réelles téléopérées pour le fine-tuning final. Le sim-only reste rare en production.

Standards et spécifications

MuJoCo (Multi-Joint dynamics with Contact)

Simulateur physique open-source maintenu par Google DeepMind, standard de fait pour la recherche en robotique. Utilisé par OpenAI (Rubik's Cube), DeepMind (RoboCat), et la plupart des labs académiques

NVIDIA Isaac Sim / Isaac Lab

Plateforme de simulation GPU-accélérée pour la robotique, intégrée à Omniverse. Supporte le rendu photoréaliste (RTX), la simulation physique PhysX et la parallélisation massive (milliers d'environnements simultanés)

Habitat (Meta AI)

Simulateur 3D photoréaliste pour la navigation et l'interaction avec environnement domestique — base d'entraînement de Spot AI (Meta + Boston Dynamics) et de nombreux travaux d'embodied AI

Questions fréquentes

Pourquoi entraîner en simulation plutôt que directement sur le robot réel ?

Trois raisons. Vitesse : un simulateur GPU-accéléré peut générer 100-1000 fois plus d'épisodes par heure qu'un robot physique, et tourner en parallèle sur des milliers d'environnements simultanés. Coût : un humanoïde à 50 000 $ qui se casse pendant un essai brutal coûte cher ; en simulation, le crash est gratuit. Sécurité : on peut tester des politiques exploratoires (RL) sans risquer un humain ou un équipement.

Le contrepoint est le reality gap : la simulation est toujours imparfaite (frottements approximés, capteurs idéalisés, dynamique de contact simplifiée), donc une politique parfaite en sim peut échouer en réel. Les techniques de sim-to-real transfer existent précisément pour franchir ce fossé.

Qu'est-ce que la domain randomization ?

La domain randomization consiste à entraîner la politique en variant aléatoirement les paramètres physiques du simulateur à chaque épisode : masse des objets, frottements, couleurs, positions initiales, latences capteurs, bruit moteur. L'agent ne voit jamais deux fois exactement la même physique.

Le pari : si la politique fonctionne sur un large nuage de simulations différentes, le monde réel ressemblera à une de ces simulations possibles, et la politique généralisera. C'est l'approche qui a permis à OpenAI de résoudre le Rubik's Cube avec une main robotique (2019). NVIDIA Automatic Domain Randomization (ADR) élargit progressivement les plages de randomisation au fur et à mesure que l'agent maîtrise les versions plus simples — un curriculum auto-généré.

Le reality gap, ça reste un problème en 2025 ?

Oui, mais sa nature a changé. Les simulateurs photoréalistes (Isaac Sim, Habitat 3.0) et les modèles physiques précis (MuJoCo-Warp, Isaac Lab) ont fortement réduit l'écart sur la perception et la dynamique rigide. Les zones encore difficiles : contact riche (manipulation d'objets déformables, tissu, câbles, liquides), capteurs propriétaires (lidar, capteurs tactiles spécifiques) et imprévus environnementaux (un humain qui passe, une lumière qui change brutalement).

L'approche dominante 2025 est hybride : pré-entraînement massif en simulation (Isaac Lab, MuJoCo-Warp) + fine-tuning court sur des données réelles (1 000-10 000 épisodes téléopérés) — bien plus efficace que sim-only ou real-only.

Quels sont les simulateurs majeurs ?

MuJoCo (DeepMind, open-source) — référence académique pour la dynamique articulée et le contact. Utilisé par OpenAI, DeepMind, Stanford. Isaac Sim / Isaac Lab (NVIDIA) — simulation GPU-accélérée massivement parallèle, rendu photoréaliste RTX, premier choix industriel. Habitat (Meta) — simulateur 3D photoréaliste optimisé pour la navigation et l'interaction domestique. SAPIEN (UC San Diego), RoboCasa (NVIDIA), ManiSkill (Hillbot) — environnements de manipulation.

Pour la conduite autonome : CARLA (Intel Labs, open), Waymax (Google), NVIDIA DRIVE Sim. Chaque simulateur a ses biais — un robot transféré entre simulateurs n'est pas garanti de fonctionner sans réajustement.

Ressources et documentation

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Le reality gap en pratique #

Trois grandes familles de techniques #

Domain randomization #

Domain adaptation #

System identification + fine-tuning #

L'écosystème simulation 2025 #

Limites et débats actuels #