APRENDEMMXXVI

Generación aumentada
por recuperación, sin misterio

La generación aumentada por recuperación, o RAG por sus siglas en inglés, es la técnica que permite a un LLM responder preguntas sobre documentos con los que nunca se entrenó. Empareja un sistema de búsqueda con el modelo de lenguaje: recuperar los pasajes relevantes, dárselos al modelo como contexto y luego generar la respuesta. RAG es lo que mueve la mayoría de los asistentes de IA empresariales en 2026, y es la principal respuesta práctica a las alucinaciones de los LLM.

Prueba Namulai gratis30 días de prueba gratis · luego 19,80 €/mes · cancela cuando quieras

01 / DEFINICIÓN

Recuperar primero, generar después

Un LLM puro responde solo desde sus datos de entrenamiento. No puede saber sobre el wiki interno de tu empresa, las noticias de hoy o un PDF que acabas de subir.

RAG arregla esto con un pipeline de dos pasos. Paso uno: un sistema de recuperación (normalmente búsqueda vectorial sobre un índice de embeddings) encuentra los documentos más relevantes para la pregunta. Paso dos: esos documentos se insertan en el prompt del LLM como contexto, y el modelo genera una respuesta anclada en ellos.

02 / POR QUÉ

Por qué RAG bate al fine-tuning para la mayoría de los casos

El fine-tuning hornea conocimiento nuevo en los pesos del modelo. Es caro, lento de actualizar y tiende a degradar la capacidad general si se hace mal.

RAG mantiene el modelo congelado y cambia solo lo que entra en el prompt. Los documentos nuevos se indexan en segundos. Los obsoletos se eliminan al instante. El modelo puede citar qué pasajes usó. Para conocimiento que cambia (políticas, precios, noticias, documentación de producto) RAG es casi siempre la arquitectura adecuada.

03 / PIEZAS

Embeddings, almacén vectorial, recuperador, generador

Un modelo de embeddings convierte cada fragmento de documento en un vector de alta dimensión que captura significado. Un almacén vectorial (Pinecone, Weaviate, pgvector, Qdrant) guarda millones de estos vectores y soporta búsqueda rápida por vecino más cercano.

El recuperador embebe la pregunta del usuario, encuentra los fragmentos más cercanos y se los pasa al generador (el LLM). Los recuperadores mejores usan búsqueda híbrida (vector + palabra clave), reranking y reescritura de consulta. La calidad de la recuperación importa a menudo más que qué LLM hace la generación.

04 / EN LA PRÁCTICA

Dónde encaja RAG con los ocho modelos de Namulai

Perplexity dentro de Namulai es un sistema RAG alojado: recupera de la web en vivo y ancla las respuestas en fuentes citadas. Para la mayoría de las preguntas generales, esa es la forma más fácil de usar RAG sin construir nada.

Para documentos privados, puedes pegar extractos directamente en un prompt de Claude o Gemini: con ventanas de contexto de 200k a 2 M de tokens, eso es efectivamente RAG manual y funciona sorprendentemente bien para preguntas puntuales.

05 / FAQ

learn.what-is-rag.faqTitle

learn.what-is-rag.faq.q1

learn.what-is-rag.faq.a1

learn.what-is-rag.faq.q2

learn.what-is-rag.faq.a2

learn.what-is-rag.faq.q3

learn.what-is-rag.faq.a3

learn.what-is-rag.faq.q4

learn.what-is-rag.faq.a4

Prueba respuestas con fuentes con Perplexity en Namulai

Prueba Namulai gratis

30 días de prueba gratis · luego 19,80 €/mes · cancela cuando quieras

Generación aumentada por recuperación, sin misterio