L’intelligence artificielle générative est partout, portée par la puissance spectaculaire des modèles de langage. Pourtant, derrière les benchmarks élogieux, la réalité du terrain révèle une impasse : celle d'une technologie probabiliste que l'on tente désespérément de rendre déterministe à coups de prompts et de gigantisme. Dans cette tribune, Olivier Bergeret, Directeur des équipes Tech et Agentique, appelle à une rupture avec le "fétichisme de la taille". Pour lui, l'avenir de l'IA ne réside plus dans un cerveau unique et omniscient, mais dans une ingénierie de précision : celle des Small Language Models (SLM) et des architectures agentiques pilotées avec une rigueur industrielle.
Présenter les Large Language Models (LLM) comme une innovation de rupture absolue me laisse quelque peu perplexe. Les modèles de langage neuronaux ont vingt ans. L'architecture Transformer, socle sur lequel reposent tous les grands modèles actuels, en a presque dix. Ce qu'on nous présente comme une révolution s'appuie sur des fondations que l'industrie connaît depuis longtemps. Il faut néanmoins admettre que OpenAI a vu juste en 2022 avec sa stratégie de "scaling" massif qui a propulsé le marché, presque aux forceps, dans une nouvelle ère.
Nous nous sommes alors tous engouffrés dans la brèche, multipliant les POC (souvent plus spectaculaires que véritablement structurants d’ailleurs), pour défricher ce nouveau terrain de jeu. Le constat aujourd'hui est double : oui, la technologie fonctionne indéniablement. Mais on ne peut pas non plus nier les limites techniques opérationnelles qu’elle comporte, et les conséquences souvent lourdes qui les accompagnent.
Car si les benchmarks célèbrent les progrès des modèles dans ce qu’ils savent faire en code, en mathématiques ou en restitution de connaissances, ils expriment moins bien ce que les modèles ne savent toujours pas garantir : la fiabilité et la stabilité. Hors, les problèmes de fiabilité et de stabilité ne se résument pas à des défauts isolés, et plombent nombre de cas d’usage.
La plus visible de ces problèmes reste l'hallucination. Le modèle peut inventer un fait, une source ou une explication sans le moindre doute. Ce qui rend l'hallucination dangereuse, c'est l'assurance avec laquelle elle s'exprime : une information fausse mais fluide et bien construite prend rapidement l'apparence de la vérité.
Ces problèmes peuvent en outre être amplifiés par des limites structurelles (fenêtres de contexte insuffisantes pour les tâches denses, raisonnement qui se délite sur la longueur…) et une tendance des modèles à la flagornerie qui les poussent à adopter les hypothèses de leur interlocuteur plutôt qu'à les questionner.
Ces difficultés peuvent prendre une dimension supplémentaire dans le domaine de l’agentique. Utilisé par un agent, lorsqu’un modèle planifie, enchaîne des étapes et appelle des outils, une erreur ne reste plus cantonnée à une réponse approximative, et se propage dans la chaîne d'exécution. Une mauvaise interprétation, un contexte mal suivi ou un enchaînement raté peuvent compromettre toute une séquence.
En clair, les LLMs excellent à produire du vraisemblable, et c'est précisément là que réside le piège : leur aisance ne dit rien de leur fiabilité, de la solidité de leur raisonnement ou de leur capacité à distinguer le vrai… du plausible.
Il est temps d'arrêter de bricoler autour de ces limites et de repenser l'architecture depuis le début.
La tendance à traiter les symptômes plus que la maladie
Croire qu’il suffirait d’affiner les prompts ou d’adosser les modèles à des bases documentaires pour en corriger les faiblesses fondamentales a sans doute été l’une des grandes (dés)illusions de cette première phase d’adoption. On a longtemps voulu traiter comme de simples défauts d’usage ce qui relève en réalité de limites structurelles. Un LLM demeure, par nature, un système probabiliste qui excelle à produire des suites de mots plausibles. Sauf que prédire (même avec précision) le mot le plus probable à chaque étape de la phrase ne signifie pas une véritable compréhension de ce qu'il produit.
C’est précisément pour cette raison que les remèdes actuels montrent rapidement leurs limites. Le system prompt peut orienter le comportement du modèle, mais son effet s’atténue à mesure que le contexte s’allonge. Le RAG, de son côté, améliore l’accès à l’information pertinente et réduit certaines formes d’oubli, sans pour autant conférer au modèle une capacité de raisonnement robuste. Même correctement alimenté en données exactes, un LLM peut continuer à produire une réponse erronée dès lors que la tâche exige autre chose qu’une recomposition vraisemblable du langage. Et parce qu'il génère, token après token, sans jamais revenir sur ses pas, une erreur initiale tend à se propager au fil de la réponse plutôt qu'à être corrigée.
L’écosystème a naturellement cherché à compenser ces fragilités (grounding, GraphRAG, DPO, segmentation fine du contexte), avec de vrais résultats.
Il n’en reste pas moins que ces approches se contentent d’améliorer le comportement observable des modèles sans en modifier le principe de fonctionnement. Autrement dit, elles atténuent les symptômes sans guérir la maladie.
L’impasse du LLM
Il y a un autre angle à ce problème, moins technique mais tout aussi concret - le coût. Pendant plusieurs années, la réponse de l'industrie a tenu en un seul geste : augmenter la taille des modèles. BERT-Large comptait 340 millions de paramètres en 2018. GPT-3 en affichait 175 milliards deux ans plus tard. Qwen lançait un modèle à 480 milliards en 2025. À chaque étape, l'innovation s'est pensée comme un changement d'échelle, comme si la puissance brute était, en elle-même, une réponse aux limites du précédent.
Le problème, c'est que cette course se paie : en capacité de calcul, en consommation énergétique, en infrastructure, en coûts d'inférence pour chaque usage mis en production… Et sans toujours produire un gain proportionnel en valeur métier. On a pris l'habitude de mobiliser des mastodontes pour des tâches qui auraient pu être traitées avec bien moins. Un modèle à des centaines de milliards de paramètres pour résumer un document, classifier un ticket support ou générer une réponse client standard : le rapport entre la puissance déployée et la complexité réelle de la tâche est souvent absurde. C’est la fameuse image du bazooka qu’on utilise pour tuer une mouche. À force de confondre taille et intelligence, on a fini par normaliser un modèle coûteux, énergivore et structurellement inefficace pour la plupart des usages qu'on en fait.
La réponse à ces problématiques ne réside pas dans une accumulation continue de paramètres. Le LLM n’a pas vocation à tout faire seul ! Dès lors que la tâche exige du calcul, de la vérification factuelle, de la logique formelle ou l’exécution d’actions, il devient plus intéressant de déléguer ces opérations à des outils spécialisés, déterministes et contrôlables. L'approche agentique acte ce changement : plutôt que d'attendre d'un seul modèle qu'il réponde à tout, on construit une chaîne où chaque composant fait ce qu'il “sait” faire.
En pratique, ça ressemble à ça : un agent formule une hypothèse, un autre génère du code, un troisième l'évalue dans un environnement isolé. Si le test échoue, la correction est réinjectée dans la boucle. L'intérêt de cette organisation est moins de “rendre le modèle intelligent” que de mieux encadrer ses faiblesses.
Mais cette rigueur a un coût. Les chaînes multi-agents allongent les temps d’exécution et multiplient les appels aux modèles, avec une hausse rapide de la latence et des coûts d’inférence. Mais ce découpage des tâches rend aussi visible quelque chose d'important : à chaque étape, l'intérêt de mobiliser un très grand modèle devient moins évident.
Cas d'usage, choix d'architecture... Découvrez notre guide pour construire des agents IA pour son entreprise !
Le choix de l’efficience
Pendant des années, l’industrie a assimilé le progrès à l’augmentation continue du nombre de paramètres. Mais cette équation perd aujourd’hui de sa pertinence. Toutes les tâches n’exigent pas la profondeur d’un modèle généraliste massif; beaucoup demandent d’abord de la précision, de la rapidité, de la stabilité et un coût maîtrisé. Un constat qui nous oblige à abandonner le fétichisme de la taille qu’on semble avoir quand il s’agit de modèles de langage.
C’est tout le sens de l’émergence des Small Language Models. Loin d’être des versions appauvries des grands modèles, ils répondent souvent avec davantage de pertinence à une large part des besoins réels. Les travaux récents montrent d’ailleurs que, lorsqu’un problème est correctement décomposé en sous-tâches bien définies, des modèles plus petits, mieux ajustés et mieux orchestrés, peuvent atteindre sur des tâches ciblée des performances comparables, voire supérieures, à celles de modèles beaucoup plus massifs. Pour le dire plus concrètement, un SLM d’aujourd’hui tend à proposer un niveau d’intelligence utile comparable à celui d’un LLM d’il y a seulement quelques mois, tout en mobilisant 15 à 20 fois moins de paramètres.
Leur intérêt est d'abord économique, mais il devient vite opérationnel. Des modèles plus compacts permettent de contenir les coûts, de réduire la latence et de simplifier le déploiement. Ils rendent aussi possible un déploiement local, au plus près des données et des environnements métiers, ce qui répond à des exigences croissantes de sécurité et de souveraineté. En d’autres termes, les SLM ne marquent pas un recul de l’ambition, mais traduisent au contraire une forme de maturité : celle qui consiste à rechercher, non la puissance maximale en toute circonstance, mais le bon niveau de modèle pour le bon usage.
L'impératif de la plateforme
Gare, cependant, à ne pas troquer l'aveuglement du prompt magique qui corrige tout contre celui de la hype agentique : croire que déployer des agents et des SLMs suffit à résoudre le problème, c'est reproduire exactement la même erreur.. Il faut absolument être conscient que cette rationalisation technologique exige une rigueur implacable, et qu’il est hors de question de s'y lancer la fleur au fusil.
Déployer des swarms d’agents, ces réseaux d’agents coordonnés en parallèle, exige de s’appuyer sur une véritable plateforme d’orchestration industrielle, relevant du LLMOps ou de l’AgentOps. Bricoler des agents sans infrastructure centralisée, c'est courir au désastre opérationnel et bâtir des usines à gaz impossibles à maintenir. Par ailleurs, cette plateforme doit impérativement offrir une observabilité totale. Il ne s'agit plus de lire un simple historique de conversation, mais de tracer en temps réel les appels d'API, de monitorer la consommation de tokens, d'auditer les boucles de raisonnement (tracing) et de mesurer la latence, le taux d'erreur et le niveau d’hallucination de chaque sous-agent.
Plus crucial encore, cette infrastructure doit garantir la sécurité by design. Confier des outils d'exécution (comme l'accès à une base de données) à des agents autonomes impose l'intégration de garde-fous stricts (guardrails). Ces pare-feux algorithmiques, placés en amont et en aval des LLM, doivent filtrer les injections de prompts, bloquer les sorties hors-sujet, empêcher la fuite de données entre deux agents, et garantir qu'une action critique requiert toujours une validation déterministe. Sans cette plateforme de gouvernance, l'architecture agentique passe du statut de solution à celui de nouvelle source de risques.
En définitive, l'avenir de l'IA générative ne ressemble pas à l’utilisation d’un cerveau unique et surpuissant, mais plutôt au déploiement d’un essaim d'ouvriers cognitifs véloces, frugaux et ultra-spécialisés. La plus grande victoire de cette nouvelle itération est d'avoir désacralisé l'outil - le LLM prétendument omniscient - pour une approche ou le modèle de langage redevient une simple composante d'ingénierie au service de l'efficacité opérationnelle. C'est ça, arrêter avec les LLMs : non pas les abandonner, mais arrêter de leur demander ce qu'ils ne peuvent pas garantir.
L'IA change le terrain, et avec lui le cadre stratégique. Pour vraiment exploiter l'opportunité de l'IA, il faut être capable de décider quoi prioriser, comment gouverner et comment embarquer leur organisation. La formation IA pour les leaders de Thiga Academy donne les outils pour passer à l'action : identifier les cas d'usage à fort potentiel dans leur organisation, construire un cadre de gouvernance adapté et structurer un plan d'action sur 30, 60 et 90 jours.