LERNENMMXXVI

Retrieval-Augmented
Generation, entmystifiziert

Retrieval-Augmented Generation, kurz RAG, ist die Technik, die ein LLM Fragen über Dokumente beantworten lässt, auf denen es nie trainiert wurde. Sie koppelt ein Suchsystem mit dem Sprachmodell: relevante Passagen abrufen, dem Modell als Kontext geben, dann die Antwort erzeugen. RAG treibt die meisten Enterprise-KI-Assistenten 2026 an und ist die wichtigste praktische Antwort auf LLM-Halluzinationen.

Namulai kostenlos testen30 Tage kostenlos testen · danach 19,80€/Monat · jederzeit kündbar

01 / DEFINITION

Erst abrufen, dann generieren

Ein reines LLM antwortet allein aus seinen Trainingsdaten. Es kann nichts über Ihr Firmen-Wiki, die heutigen Nachrichten oder ein gerade hochgeladenes PDF wissen.

RAG behebt das mit einer zweistufigen Pipeline. Schritt eins: Ein Retrieval-System (meist Vektorsuche über einen Embedding-Index) findet die für die Frage relevantesten Dokumente. Schritt zwei: Diese Dokumente werden als Kontext in den LLM-Prompt eingefügt, und das Modell erzeugt eine darin verankerte Antwort.

02 / WARUM

Warum RAG bei den meisten Anwendungen Fine-Tuning schlägt

Fine-Tuning bäckt neues Wissen in die Modellgewichte. Es ist teuer, langsam zu aktualisieren und neigt dazu, allgemeine Fähigkeiten zu verschlechtern, wenn es schlecht gemacht wird.

RAG hält das Modell eingefroren und ändert nur, was in den Prompt geht. Neue Dokumente werden in Sekunden indiziert. Veraltete Dokumente werden sofort entfernt. Das Modell kann zitieren, welche Passagen es nutzte. Für Wissen, das sich ändert (Richtlinien, Preise, Nachrichten, Produktdoku), ist RAG fast immer die richtige Architektur.

03 / BAUSTEINE

Embeddings, Vektorspeicher, Retriever, Generator

Ein Embedding-Modell wandelt jeden Dokumenten-Chunk in einen hochdimensionalen Vektor, der Bedeutung erfasst. Ein Vektorspeicher (Pinecone, Weaviate, pgvector, Qdrant) hält Millionen dieser Vektoren und unterstützt schnelle Nearest-Neighbor-Suche.

Der Retriever bettet die Frage ein, findet die nächstgelegenen Dokumenten-Chunks und reicht sie an den Generator (das LLM) weiter. Bessere Retriever nutzen Hybrid-Suche (Vektor + Stichwort), Reranking und Query-Rewriting. Die Qualität des Retrievals ist oft wichtiger als die Wahl des LLM für die Generierung.

04 / IN DER PRAXIS

Wo RAG zu Namulais acht Modellen passt

Perplexity in Namulai ist ein gehostetes RAG-System: Es ruft aus dem Live-Web ab und verankert Antworten in zitierten Quellen. Für die meisten allgemeinen Fragen ist das der einfachste Weg, RAG zu nutzen, ohne etwas zu bauen.

Für private Dokumente fügen Sie Auszüge direkt in einen Claude- oder Gemini-Prompt ein: Mit 200k bis 2M Token Kontextfenster ist das faktisch manuelles RAG und funktioniert für einmalige Fragen überraschend gut.

05 / FAQ

learn.what-is-rag.faqTitle

learn.what-is-rag.faq.q1

learn.what-is-rag.faq.a1

learn.what-is-rag.faq.q2

learn.what-is-rag.faq.a2

learn.what-is-rag.faq.q3

learn.what-is-rag.faq.a3

learn.what-is-rag.faq.q4

learn.what-is-rag.faq.a4

Probieren Sie belegte Antworten mit Perplexity in Namulai

Namulai kostenlos testen

30 Tage kostenlos testen · danach 19,80€/Monat · jederzeit kündbar

Retrieval-Augmented Generation, entmystifiziert