19 juin 2026 · RepèresJune 19, 2026 · Primer

20 ans d'évolution des modèles d'IA20 Years of AI Model Evolution

Des premiers réseaux profonds aux agents autonomes : deux décennies de percées expliquées simplement, sans battage.From the first deep networks to autonomous agents: two decades of breakthroughs explained plainly, without the hype.

L'intelligence artificielle n'est pas apparue du jour au lendemain avec ChatGPT. Ce qu'on voit aujourd'hui repose sur une longue suite de percées, chacune réglant un problème concret que la précédente avait laissé ouvert. Voici le fil conducteur des vingt dernières années, raconté pour des gens curieux et non spécialistes : ce qui a changé à chaque étape, et surtout pourquoi ça comptait. L'objectif n'est pas de vous impressionner, mais de vous donner une carte fiable pour comprendre où l'on en est vraiment.

Artificial intelligence did not appear overnight with ChatGPT. What we see today rests on a long chain of breakthroughs, each one fixing a concrete problem the previous step had left open. Here is the through-line of the last twenty years, told for curious non-specialists: what changed at each stage, and above all why it mattered. The goal is not to dazzle you, but to give you a reliable map for understanding where things actually stand.

2006-2011

Les fondations de l'apprentissage profondThe Deep-Learning Foundations

Pendant des années, on savait empiler des couches dans un réseau de neurones, mais on n'arrivait pas à les entraîner : le signal d'apprentissage s'évaporait en chemin. En 2006, Geoffrey Hinton et ses collègues montrent une façon d'entraîner ces réseaux profonds couche par couche. C'est le moment où l'expression apprentissage profond renaît, et avec elle tout le domaine moderne.

Deux ingrédients pratiques transforment alors la théorie en résultats. D'abord les cartes graphiques (GPU), détournées de leur usage de jeu vidéo, font passer l'entraînement de semaines à environ une journée. Ensuite la base d'images ImageNet (12 millions d'images étiquetées) donne enfin un terrain d'essai à grande échelle. Dès 2011, un réseau de l'IDSIA dépasse l'humain sur la reconnaissance de panneaux routiers : la perception machine venait de franchir un seuil bien réel.

For years, researchers knew how to stack layers in a neural network but could not actually train them: the learning signal faded away en route. In 2006, Geoffrey Hinton and colleagues showed a way to train these deep networks layer by layer. That is the moment the term deep learning was reborn, and with it the entire modern field.

Two practical ingredients then turned theory into results. First, graphics cards (GPUs), repurposed from video games, cut training time from weeks to roughly a day. Then the ImageNet database (12 million labelled images) finally gave the field a large-scale testing ground. By 2011, an IDSIA network beat humans at recognizing road signs: machine perception had crossed a genuinely meaningful threshold.

Deep Belief Networks (2006)Entraînement sur GPU / GPU training (2009)ImageNet (2009)DanNet (2010-2011)

2012-2016

La révolution de l'apprentissage profondThe Deep-Learning Revolution

En 2012, AlexNet remporte le concours ImageNet avec une avance écrasante sur toutes les méthodes traditionnelles. C'est le grand déclic : l'industrie bascule vers les réseaux de neurones presque du jour au lendemain. Suivent des idées qui structurent encore l'IA d'aujourd'hui : word2vec montre qu'on peut représenter le sens des mots par de la géométrie, les GANs lancent la génération d'images réalistes, et le mécanisme d'attention apprend à un modèle à regarder les bons mots au bon moment.

Deux jalons referment l'époque. ResNet (2015) rend enfin fiable l'entraînement de réseaux très profonds grâce aux connexions de saut, une astuce qu'on retrouve aujourd'hui partout. Et en 2016, AlphaGo bat le champion du monde de Go, un jeu qu'on croyait hors de portée des machines : un moment public marquant pour l'apprentissage par renforcement.

In 2012, AlexNet won the ImageNet competition by a crushing margin over every traditional method. That was the big bang: industry pivoted to neural networks almost overnight. Then came ideas that still shape today's AI: word2vec showed that word meaning could be captured as geometry, GANs launched realistic image generation, and the attention mechanism taught a model to look at the right words at the right moment.

Two milestones closed the era. ResNet (2015) finally made training very deep networks reliable through skip connections, a trick now found nearly everywhere. And in 2016, AlphaGo beat the world Go champion, a game long thought beyond machines: a landmark public moment for reinforcement learning.

AlexNet (2012)word2vec (2013)GANs (2014)seq2seq + attention (2014)ResNet (2015)AlphaGo (2016)

2017-2020

L'ère du TransformerThe Transformer Era

En 2017, un article au titre devenu célèbre, Attention Is All You Need, propose le Transformer : une architecture qui abandonne le traitement mot à mot pour analyser toute une phrase en parallèle. Résultat : un entraînement beaucoup plus efficace, et une fondation commune à presque tous les modèles de langage qui suivront. BERT et la famille GPT en sortent directement, popularisant la recette du préentraînement sur d'énormes quantités de texte.

En 2020, deux constats changent la donne. Les lois d'échelle montrent que la performance s'améliore de façon prévisible quand on augmente taille, données et puissance de calcul : agrandir devient une stratégie d'ingénierie, pas un pari. GPT-3 le confirme en accomplissant des tâches à partir de quelques exemples glissés dans la consigne. Et AlphaFold 2 prouve que ces approches débordent du langage en résolvant un défi biologique vieux de cinquante ans, le repliement des protéines.

In 2017, a paper with a now-famous title, Attention Is All You Need, proposed the Transformer: an architecture that drops word-by-word processing to analyze a whole sentence in parallel. The result was far more efficient training and a common foundation for nearly every language model that followed. BERT and the GPT family came straight out of it, popularizing the recipe of pretraining on enormous amounts of text.

In 2020, two findings changed the game. Scaling laws showed that performance improves predictably as you increase size, data, and compute: making models bigger became an engineering strategy rather than a gamble. GPT-3 confirmed it by performing tasks from just a few examples slipped into the prompt. And AlphaFold 2 proved these approaches reach far beyond language by cracking a fifty-year-old biology challenge, protein folding.

Transformer (2017)BERT / GPT-1 (2018)GPT-2 (2019)Lois d'échelle / Scaling laws (2020)GPT-3 (2020)AlphaFold 2 (2020)

2021-2023

L'IA générative devient grand publicGenerative AI Goes Mainstream

Le langage et l'image se rejoignent. CLIP apprend à relier mots et images, et devient le volant qui guide les générateurs texte-vers-image. Suivent DALL-E, puis DALL-E 2 et surtout Stable Diffusion, qui rend la génération d'images libre et exécutable sur un ordinateur ordinaire. En parallèle, une avancée plus discrète mais décisive, le RLHF, apprend aux modèles à suivre des consignes humaines : c'est ce qui transforme un modèle brut en assistant coopératif.

Le 30 novembre 2022, ChatGPT met tout cela entre les mains du public et atteint un million d'utilisateurs en cinq jours. En 2023, la course s'accélère : GPT-4 franchit un nouveau palier de fiabilité et accepte les images, Claude d'Anthropic arrive avec une approche centrée sur la sûreté (l'IA constitutionnelle), et LLaMA puis Llama 2 lancent pour de bon le mouvement des modèles ouverts. L'IA cesse d'être un outil de spécialistes.

Language and image converge. CLIP learns to link words and pictures, and becomes the steering wheel guiding text-to-image generators. Then come DALL-E, DALL-E 2, and above all Stable Diffusion, which makes image generation open and runnable on an ordinary computer. In parallel, a quieter but decisive advance, RLHF, teaches models to follow human instructions: this is what turns a raw model into a cooperative assistant.

On November 30, 2022, ChatGPT puts all of this in the public's hands and reaches a million users in five days. In 2023 the race accelerates: GPT-4 clears a new reliability bar and accepts images, Anthropic's Claude arrives with a safety-focused approach (Constitutional AI), and LLaMA, then Llama 2, truly launch the open-model movement. AI stops being a specialist's tool.

CLIP / DALL-E (2021)DALL-E 2 / Stable Diffusion (2022)RLHF / InstructGPT (2022)ChatGPT (2022)GPT-4 / Claude (2023)LLaMA / Llama 2 (2023)

2024-2026

Modèles de raisonnement et agentsReasoning Models and Agents

Deux virages structurent cette période. D'abord les assistants deviennent multimodaux par défaut : GPT-4o, Claude 3.5 et Gemini voient, entendent et parlent presque en temps réel. Ensuite apparaissent les modèles de raisonnement, comme la série o1/o3 d'OpenAI, DeepSeek R1 ou les modèles pensants de Google, qui prennent le temps de réfléchir avant de répondre. En parallèle, les modèles ouverts (DeepSeek, Qwen, Llama) rattrapent une bonne partie de l'écart avec les laboratoires fermés.

L'autre grande bascule, ce sont les agents : des IA qui manipulent des outils, naviguent sur le web et pilotent un ordinateur pour accomplir des tâches en plusieurs étapes, pas seulement discuter. Le raisonnement finit par être intégré dans des modèles unifiés (GPT-5, Claude 4.x, Gemini 3) qui décident eux-mêmes de l'effort à fournir. À la mi-2026, la frontière avance moins par lancements spectaculaires que par un flot quasi mensuel de mises à jour de plus en plus agentiques, avec le génie logiciel autonome comme vitrine. Prudence toutefois : plus on s'approche d'aujourd'hui, plus les numéros de version bougent vite et relèvent du présent mouvant.

Two shifts structure this period. First, assistants become multimodal by default: GPT-4o, Claude 3.5, and Gemini see, hear, and speak almost in real time. Then come reasoning models, such as OpenAI's o1/o3 line, DeepSeek R1, or Google's thinking models, which take time to think before answering. In parallel, open models (DeepSeek, Qwen, Llama) close much of the gap with the closed labs.

The other major pivot is agents: AI that operates tools, browses the web, and drives a computer to complete multi-step tasks, not just chat. Reasoning ends up folded into unified models (GPT-5, Claude 4.x, Gemini 3) that decide on their own how hard to think. By mid-2026, the frontier advances less through spectacular launches than through a near-monthly stream of increasingly agentic updates, with autonomous software engineering as the showcase. A caveat, though: the closer we get to today, the faster version numbers move, making the most recent ones a live, shifting present rather than settled history.

GPT-4o / Claude 3.5 (2024)OpenAI o1 (2024)DeepSeek R1 (2025)Gemini 2.5 Pro (2025)GPT-5 / Claude 4.5 (2025)Gemini 3 Pro (2025)

Vingt ans d'évolution racontent une histoire plus sobre que les manchettes : chaque percée a résolu un problème précis, et chacune a ouvert de nouvelles limites à comprendre. Les modèles d'aujourd'hui sont remarquablement utiles, mais ils ne sont ni infaillibles ni magiques : ils se trompent, coûtent de l'énergie et demandent un cadre clair. Chez Studio Kaleo, c'est exactement notre angle. Une IA qui crée de la valeur durable n'est pas la plus tape-à-l'oeil, c'est celle qu'on déploie pour de vrais besoins, qu'on mesure honnêtement et qu'on garde sous contrôle humain. Comprendre d'où vient cette technologie, c'est la meilleure façon de l'utiliser avec lucidité, plutôt que de courir après chaque nouvelle promesse.

Twenty years of evolution tell a more sober story than the headlines: each breakthrough solved a specific problem, and each one opened new limits to understand. Today's models are remarkably useful, but they are neither infallible nor magical: they make mistakes, cost energy, and need a clear framework. At Studio Kaleo, that is exactly our angle. The AI that creates durable value is not the flashiest; it is the one you deploy for real needs, measure honestly, and keep under human control. Understanding where this technology comes from is the best way to use it with clear eyes, rather than chasing every new promise.