IMPARAMMXXVI

AI multimodale:
un modello, molti sensi

AI multimodale descrive modelli che possono prendere più di un tipo di input, tipicamente testo più immagini, audio o video, in un solo prompt. Il passaggio dal solo testo al multimodale è avvenuto silenziosamente tra il 2023 e il 2025 ed è ora il default per i modelli di frontiera. Capire cosa cambia davvero il multimodale (e cosa no) è essenziale per scegliere lo strumento giusto nel 2026.

Prova Namulai gratis30 giorni di prova gratuita · poi €19,80 al mese · disdici quando vuoi

01 / DEFINIZIONE

Più tipi di input, rappresentazione interna unificata

Un modello unimodale elabora un solo tipo di input. Un LLM puro testuale è unimodale: testo dentro, testo fuori.

Un modello multimodale può prendere diversi tipi di input e li elabora attraverso encoder che convertono ogni modalità in vettori compatibili con la rappresentazione interna del modello. Dal punto di vista del modello, un'immagine e un paragrafo diventano tensori simili. Lo stesso meccanismo di attenzione ragiona su entrambi. La maggior parte dei modelli multimodali attuali emette ancora solo testo, anche se quelli che generano anche immagini e audio stanno arrivando in fretta.

02 / COME

Encoder visivi, encoder audio, fusione

Per la visione, i modelli usano un encoder di immagini basato su transformer (spesso in stile ViT) che divide un'immagine in patch e li incorpora come token. Quei token visivi vengono poi concatenati con i token di testo nel prompt.

Per l'audio, gli encoder lavorano tipicamente su spettrogrammi (in stile Whisper) o direttamente sulle forme d'onda. La fusione avviene al livello di attenzione: il modello tratta token visivi, audio e testuali come membri della stessa sequenza e ragiona attraverso di essi.

03 / COSA CAMBIA

Cosa sblocca davvero il multimodale in pratica

Il multimodale ti permette di chiedere cose come leggi questo grafico e dimmi il trend, identifica il bug in questo screenshot di UI, trascrivi questo memo vocale ed estrai gli action item, oppure riassumi questo podcast.

Non risolve magicamente il grounding: il modello può ancora allucinare su ciò che vede. Ma rimuove l'attrito di convertire le modalità a mano. Molti workflow reali (design review, scansione documenti, accessibilità) sono ora fattibili in un solo prompt dove richiedevano una pipeline.

04 / IN PRATICA

Quali modelli Namulai supportano quali modalità

Dentro Namulai, ChatGPT, Claude e Gemini accettano tutti input di immagini insieme al testo, con Gemini generalmente il più forte per immagini ricche di layout o grafici. Gemini accetta anche input audio e video direttamente.

Per task solo testo, i modelli più leggeri (Mistral, DeepSeek, LLaMA) sono spesso più veloci ed economici. Il selettore di modelli ti permette di instradare una domanda multimodale a un modello multimodale e una domanda testuale a quello migliore, tutto dalla stessa chat a 19,80 EUR al mese.

05 / FAQ

learn.multimodal-ai.faqTitle

learn.multimodal-ai.faq.q1

learn.multimodal-ai.faq.a1

learn.multimodal-ai.faq.q2

learn.multimodal-ai.faq.a2

learn.multimodal-ai.faq.q3

learn.multimodal-ai.faq.a3

learn.multimodal-ai.faq.q4

learn.multimodal-ai.faq.a4

Prova un prompt multimodale in Namulai

Prova Namulai gratis

30 giorni di prova gratuita · poi €19,80 al mese · disdici quando vuoi

AI multimodale: un modello, molti sensi