Un modèle multimodal est un LLM capable de traiter plusieurs formats d’entrée — texte, image, audio, vidéo, parfois fichiers PDF — dans un même prompt. Avant 2024, l’écrasante majorité des LLM ne lisaient que du texte. En 2026, Claude 4.6, GPT-5 et Gemini 2.5 acceptent nativement images + texte, certains aussi audio et vidéo.
En pratique
Cas typique en PME : votre commercial photographie un bon de commande manuscrit, l’envoie à l’agent IA qui :
- Lit l’image (vision).
- Extrait les références produits, quantités, signatures.
- Génère un fichier CSV propre.
- Crée la commande dans votre ERP via MCP.
Aucune OCR custom à entraîner. Le LLM multimodal gère bout en bout. Précision typique sur factures/bons de commande FR en 2026 : 95-98 %.
Autres cas concrets :
- Lecture de schémas techniques (BTP, industrie).
- Analyse de captures d’écran de bug pour le support client.
- Extraction d’éléments depuis une vidéo de visite immobilière.
- Description de plats sur photos de carte restaurant.
Coût et latence
Une image 1024×1024 = ~1 200 tokens en moyenne sur Claude Sonnet, donc ~3-4 centimes de coût d’inférence. Latence ajoutée : ~500 ms vs un prompt texte pur. Largement acceptable pour 95 % des use cases batch et la plupart des cas temps-réel.
Pour PME
Le multimodal a ouvert des automatisations qui étaient hors d’atteinte en 2023 (OCR sur mesure, vision custom). En 2026, si vous numérisez encore des documents à la main, c’est qu’on vous a vendu de la “transformation digitale” qui n’a pas intégré l’IA générative.
Pour aller plus loin
- Tool use — définition — les outils qu’un modèle multimodal peut appeler.
- Agent IA — définition — orchestrer un modèle multimodal dans un workflow.
- Comparatif Claude vs GPT vs Mistral — capacités multimodales comparées.
- Audit IA Kezify — identifier vos cas multimodaux à fort ROI.
Vous voulez utiliser des modèles multimodaux dans votre entreprise ? Audit IA Kezify.