Retrieval-Augmented
Generation, entmystifiziert
Retrieval-Augmented Generation, kurz RAG, ist die Technik, die ein LLM Fragen über Dokumente beantworten lässt, auf denen es nie trainiert wurde. Sie koppelt ein Suchsystem mit dem Sprachmodell: relevante Passagen abrufen, dem Modell als Kontext geben, dann die Antwort erzeugen. RAG treibt die meisten Enterprise-KI-Assistenten 2026 an und ist die wichtigste praktische Antwort auf LLM-Halluzinationen.
Erst abrufen, dann generieren
Ein reines LLM antwortet allein aus seinen Trainingsdaten. Es kann nichts über Ihr Firmen-Wiki, die heutigen Nachrichten oder ein gerade hochgeladenes PDF wissen.
RAG behebt das mit einer zweistufigen Pipeline. Schritt eins: Ein Retrieval-System (meist Vektorsuche über einen Embedding-Index) findet die für die Frage relevantesten Dokumente. Schritt zwei: Diese Dokumente werden als Kontext in den LLM-Prompt eingefügt, und das Modell erzeugt eine darin verankerte Antwort.
Warum RAG bei den meisten Anwendungen Fine-Tuning schlägt
Fine-Tuning bäckt neues Wissen in die Modellgewichte. Es ist teuer, langsam zu aktualisieren und neigt dazu, allgemeine Fähigkeiten zu verschlechtern, wenn es schlecht gemacht wird.
RAG hält das Modell eingefroren und ändert nur, was in den Prompt geht. Neue Dokumente werden in Sekunden indiziert. Veraltete Dokumente werden sofort entfernt. Das Modell kann zitieren, welche Passagen es nutzte. Für Wissen, das sich ändert (Richtlinien, Preise, Nachrichten, Produktdoku), ist RAG fast immer die richtige Architektur.
Embeddings, Vektorspeicher, Retriever, Generator
Ein Embedding-Modell wandelt jeden Dokumenten-Chunk in einen hochdimensionalen Vektor, der Bedeutung erfasst. Ein Vektorspeicher (Pinecone, Weaviate, pgvector, Qdrant) hält Millionen dieser Vektoren und unterstützt schnelle Nearest-Neighbor-Suche.
Der Retriever bettet die Frage ein, findet die nächstgelegenen Dokumenten-Chunks und reicht sie an den Generator (das LLM) weiter. Bessere Retriever nutzen Hybrid-Suche (Vektor + Stichwort), Reranking und Query-Rewriting. Die Qualität des Retrievals ist oft wichtiger als die Wahl des LLM für die Generierung.
Wo RAG zu Namulais acht Modellen passt
Perplexity in Namulai ist ein gehostetes RAG-System: Es ruft aus dem Live-Web ab und verankert Antworten in zitierten Quellen. Für die meisten allgemeinen Fragen ist das der einfachste Weg, RAG zu nutzen, ohne etwas zu bauen.
Für private Dokumente fügen Sie Auszüge direkt in einen Claude- oder Gemini-Prompt ein: Mit 200k bis 2M Token Kontextfenster ist das faktisch manuelles RAG und funktioniert für einmalige Fragen überraschend gut.
learn.what-is-rag.faqTitle
learn.what-is-rag.faq.q1
learn.what-is-rag.faq.a1
learn.what-is-rag.faq.q2
learn.what-is-rag.faq.a2
learn.what-is-rag.faq.q3
learn.what-is-rag.faq.a3
learn.what-is-rag.faq.q4
learn.what-is-rag.faq.a4
Probieren Sie belegte Antworten mit Perplexity in Namulai
Namulai kostenlos testen30 Tage kostenlos testen · danach 19,80€/Monat · jederzeit kündbar