Retrieval-Augmented
Generation, demistificato
Il Retrieval-Augmented Generation, o RAG, è la tecnica che permette a un LLM di rispondere a domande su documenti su cui non è stato mai addestrato. Abbina un sistema di ricerca al modello linguistico: recupera i passaggi rilevanti, li dà al modello come contesto, poi genera la risposta. Il RAG alimenta la maggior parte degli assistenti AI aziendali nel 2026 ed è la principale risposta pratica alle allucinazioni degli LLM.
Recupera prima, poi genera
Un LLM puro risponde solo dai suoi dati di addestramento. Non può sapere della wiki interna della tua azienda, delle notizie di oggi o del PDF che hai appena caricato.
Il RAG sistema questo con una pipeline a due passi. Passo uno: un sistema di retrieval (di solito ricerca vettoriale su un indice di embedding) trova i documenti più rilevanti per la domanda dell'utente. Passo due: quei documenti vengono inseriti nel prompt dell'LLM come contesto, e il modello genera una risposta ancorata a essi.
Perché il RAG batte il fine-tuning per la maggior parte dei casi
Il fine-tuning cuoce nuova conoscenza dentro i pesi del modello. È costoso, lento da aggiornare e tende a degradare la capacità generale se fatto male.
Il RAG mantiene il modello congelato e cambia solo ciò che entra nel prompt. I nuovi documenti vengono indicizzati in pochi secondi. Quelli obsoleti vengono rimossi all'istante. Il modello può citare quali passaggi ha usato. Per la conoscenza che cambia (policy, prezzi, notizie, documenti di prodotto) il RAG è quasi sempre l'architettura giusta.
Embedding, vector store, retriever, generator
Un modello di embedding converte ogni chunk di documento in un vettore ad alta dimensionalità che cattura il significato. Un vector store (Pinecone, Weaviate, pgvector, Qdrant) tiene milioni di questi vettori e supporta ricerca rapida del vicino più prossimo.
Il retriever incorpora la domanda dell'utente, trova i chunk di documento più vicini e li passa al generator (l'LLM). I retriever migliori usano ricerca ibrida (vettoriale + parole chiave), reranking e riscrittura di query. La qualità del retrieval conta spesso più di quale LLM faccia la generazione.
Dove sta il RAG con gli otto modelli di Namulai
Perplexity dentro Namulai è un sistema RAG ospitato: recupera dal web in tempo reale e ancora le risposte a fonti citate. Per la maggior parte delle domande generali, è il modo più facile di usare il RAG senza costruire nulla.
Per documenti privati, puoi incollare estratti direttamente in un prompt di Claude o Gemini: con finestre di contesto da 200k a 2M token, è di fatto un RAG manuale e funziona sorprendentemente bene per domande una tantum.
learn.what-is-rag.faqTitle
learn.what-is-rag.faq.q1
learn.what-is-rag.faq.a1
learn.what-is-rag.faq.q2
learn.what-is-rag.faq.a2
learn.what-is-rag.faq.q3
learn.what-is-rag.faq.a3
learn.what-is-rag.faq.q4
learn.what-is-rag.faq.a4
Prova le risposte con fonti con Perplexity in Namulai
Prova Namulai gratis30 giorni di prova gratuita · poi €19,80 al mese · disdici quando vuoi