RAG : Définition et guide complet

Le RAG (Retrieval-Augmented Generation, génération augmentée par la récupération) est une technique qui améliore les réponses d'un LLM en lui fournissant des documents pertinents extraits d'une base de connaissances avant la génération. Le RAG permet d'ancrer les réponses dans des données factuelles vérifiées, réduisant les hallucinations et rendant le modèle exploitable sur des données privées ou récentes.

Définition technique

Pipeline RAG classique

Le RAG s'articule en trois phases :

1. Indexation — Les documents sources (PDF, pages web, bases de données) sont découpés en chunks (fragments de 200 à 1000 tokens), transformés en vecteurs numériques (embeddings) par un modèle d'embedding, et stockés dans une base vectorielle (Pinecone, Weaviate, Chroma, pgvector).

2. Récupération (Retrieval) — Quand une question arrive, elle est vectorisée par le même modèle d'embedding et comparée aux chunks stockés par similarité cosinus. Les k passages les plus proches sont récupérés (top-k retrieval).

3. Génération (Augmented Generation) — Les passages récupérés sont injectés dans le prompt du LLM avec la question de l'utilisateur. Le modèle génère sa réponse en s'appuyant sur ces sources, avec la possibilité de citer ses références.

Agentic RAG

Évolution majeure du RAG classique. L'agent IA prend le contrôle de la phase de récupération : il décide dynamiquement combien de requêtes lancer, reformule les termes de recherche, évalue la pertinence des résultats, et complète avec des sources externes (recherche web) si la base interne est insuffisante. La récupération devient une action itérative dans le cycle ReAct, pas une étape fixe.

Enjeux actuels

Qualité du chunking

Le découpage des documents en chunks est le facteur n°1 de qualité d'un RAG. Un mauvais chunking (trop petit : perte de contexte ; trop grand : bruit) dégrade la pertinence des résultats. Les approches récentes utilisent le chunking sémantique (découpage par sections logiques) plutôt que le chunking par taille fixe.

Coût et scalabilité

Un RAG en production implique : base vectorielle hébergée, modèle d'embedding, LLM pour la génération, et potentiellement un reranker. Le coût croît avec le volume de documents indexés et le nombre de requêtes. L'optimisation du top-k et l'utilisation de modèles d'embedding légers sont des leviers courants.

Standards et spécifications

EU AI Act

Le RAG est une approche technique de mitigation des risques d'hallucination, pertinente pour la conformité AI Act

Questions fréquentes

Comment fonctionne le RAG ?

Le RAG fonctionne en trois étapes : 1) Indexation — les documents sont découpés en chunks et transformés en vecteurs numériques (embeddings) stockés dans une base vectorielle. 2) Récupération — quand l'utilisateur pose une question, elle est aussi vectorisée et comparée aux chunks pour trouver les passages les plus pertinents. 3) Génération — les passages récupérés sont injectés dans le prompt du LLM qui génère sa réponse en s'appuyant sur ces sources.

Quelle est la différence entre RAG et agentic RAG ?

Le RAG classique suit un pipeline linéaire : une recherche, une réponse. L'agentic RAG ajoute de l'intelligence à la récupération : l'agent décide comment formuler ses requêtes, évalue si les résultats sont suffisants, reformule si nécessaire, complète avec des sources externes, et itère jusqu'à obtenir une réponse satisfaisante. La récupération devient une action dynamique dans le cycle ReAct de l'agent.

Le RAG remplace-t-il le fine-tuning ?

Non, ce sont deux approches complémentaires. Le RAG injecte des connaissances à l'inférence (pas besoin de ré-entraîner le modèle), idéal pour des données qui changent souvent. Le fine-tuning modifie les poids du modèle pour qu'il adopte un style ou des comportements spécifiques. En pratique, la majorité des cas d'usage entreprise utilisent le RAG car il est moins coûteux, plus rapide à déployer et plus facile à maintenir.

Définition technique #

Pipeline RAG classique #

Agentic RAG #

Enjeux actuels #

Qualité du chunking #

Coût et scalabilité #