LEARNMMXXVI

La Retrieval-Augmented
Generation, démystifiée

La Retrieval-Augmented Generation, ou RAG, est la technique qui permet à un LLM de répondre à des questions sur des documents sur lesquels il n'a jamais été entraîné. Elle associe un système de recherche au modèle de langage : récupérer les passages pertinents, les donner au modèle comme contexte, puis générer la réponse. Le RAG fait tourner la plupart des assistants IA d'entreprise en 2026, et c'est la principale réponse pratique à l'hallucination des LLM.

Essayer Namulai gratuitement30 jours d'essai gratuit · 19,80 €/mois ensuite · résiliable à tout moment

01 / DÉFINITION

Récupérer d'abord, puis générer

Un LLM pur répond à partir de ses seules données d'entraînement. Il ne peut pas connaître le wiki interne de votre boîte, les actualités du jour, ou un PDF que vous venez de téléverser.

Le RAG corrige ça avec un pipeline en deux étapes. Étape un : un système de recherche (généralement une recherche vectorielle sur un index d'embeddings) trouve les documents les plus pertinents pour la question. Étape deux : ces documents sont insérés dans le prompt du LLM comme contexte, et le modèle génère une réponse ancrée dedans.

02 / POURQUOI

Pourquoi le RAG bat le fine-tuning sur la plupart des cas

Le fine-tuning enrobe la nouvelle connaissance dans les poids du modèle. C'est cher, lent à mettre à jour et tend à dégrader la capacité générale s'il est mal fait.

Le RAG garde le modèle figé et ne change que ce qui entre dans le prompt. Les nouveaux documents sont indexés en quelques secondes. Les documents obsolètes sont retirés instantanément. Le modèle peut citer quels passages il a utilisés. Pour la connaissance qui évolue (politiques, prix, actualités, docs produit), le RAG est presque toujours la bonne architecture.

03 / BRIQUES

Embeddings, vector store, retriever, generator

Un modèle d'embedding convertit chaque chunk de document en vecteur de haute dimension qui capture le sens. Un vector store (Pinecone, Weaviate, pgvector, Qdrant) tient des millions de ces vecteurs et permet la recherche du plus proche voisin rapide.

Le retriever embed la question de l'utilisateur, trouve les chunks les plus proches, et les passe au generator (le LLM). Les meilleurs retrievers utilisent la recherche hybride (vecteur + mot-clé), le reranking et la réécriture de requête. La qualité de la récupération compte souvent plus que le LLM qui fait la génération.

04 / EN PRATIQUE

Où le RAG s'inscrit avec les huit modèles de Namulai

Perplexity dans Namulai est un système RAG hébergé : il récupère depuis le web vivant et ancre les réponses dans des sources citées. Pour la plupart des questions générales, c'est la façon la plus simple d'utiliser du RAG sans rien construire.

Pour les documents privés, vous pouvez coller des extraits directement dans un prompt Claude ou Gemini : avec des fenêtres de 200k à 2M tokens, c'est effectivement du RAG manuel et ça fonctionne étonnamment bien pour des questions ponctuelles.

05 / FAQ

learn.what-is-rag.faqTitle

learn.what-is-rag.faq.q1

learn.what-is-rag.faq.a1

learn.what-is-rag.faq.q2

learn.what-is-rag.faq.a2

learn.what-is-rag.faq.q3

learn.what-is-rag.faq.a3

learn.what-is-rag.faq.q4

learn.what-is-rag.faq.a4

Essayez les réponses sourcées avec Perplexity dans Namulai

Essayer Namulai gratuitement

30 jours d'essai gratuit · 19,80 €/mois ensuite · résiliable à tout moment

La Retrieval-Augmented Generation, démystifiée