Un modèle d’IA distillé de 7 milliards de paramètres consomme jusqu’à dix fois moins d’énergie qu’un grand modèle à l’inférence — et rivalise avec lui sur la plupart des tâches courantes. Cette donnée, documentée dans une étude publiée en avril 2026 dans la revue Joule, devrait ébranler un récit qui s’est imposé comme une évidence : l’intelligence artificielle exige toujours plus de puissance de calcul, donc toujours plus d’électricité, donc toujours plus de data centers.
Les grandes plateformes technologiques ont construit sur cette équation un programme d’investissement sans précédent. Microsoft, Google, Meta et Amazon ont annoncé ensemble environ 725 milliards de dollars de dépenses en capital pour 2026 (Amazon ~200 Md$, Microsoft ~190 Md$, Alphabet ~175-185 Md$, Meta ~115-135 Md$). Au-delà de ces quatre hyperscalers américains, les dépenses mondiales en data centers dépasseraient 788 milliards selon les projections de Gartner. La course aux centrales nucléaires s’est ouverte dans leur sillage.
Ce récit est peut-être juste. Mais il repose sur un choix d’architecture, pas sur une contrainte physique. Et ce choix peut se révéler perdant.
L’essentiel
- Un modèle distillé depuis DeepSeek-R1 (7 à 70 milliards de paramètres) atteint des performances comparables à des modèles 3 à 5 fois plus gros pour la majorité des benchmarks courants, selon des travaux publiés sur arXiv début 2025.
- La distillation réduit la consommation énergétique à l’inférence d’un facteur 5 à 10 ; pour certaines tâches spécialisées, les petits modèles divisent l’énergie consommée par un à deux ordres de grandeur.
- Les grandes plateformes technologiques maintiennent leurs paris sur les très grands modèles au motif que la frontière des capacités exige toujours davantage de calcul — un argument valide pour la recherche fondamentale, discutable pour le déploiement à grande échelle.
- Les 725 milliards de dépenses annoncées pour 2026 constituent un pari industriel sur la trajectoire haute de la demande de calcul, pas une réponse à une contrainte technique inévitable.
Ce que la distillation change dans l’équation énergétique
La distillation consiste à entraîner un modèle plus petit — l’élève — à reproduire le comportement d’un grand modèle — le professeur. Le modèle élève n’est pas une version dégradée : il apprend à imiter les distributions de probabilité du professeur, pas seulement ses réponses brutes. Le résultat est un modèle plus compact, qui concentre une grande partie des capacités du grand modèle dans une empreinte de calcul bien inférieure.
L’étude publiée dans Joule par des chercheurs de Microsoft Research documente l’ampleur du phénomène à l’inférence — la phase où le modèle répond aux requêtes des utilisateurs, et qui représente l’essentiel de la consommation opérationnelle des data centers. À l’entraînement, la consommation est concentrée dans le temps et mutualisée entre beaucoup d’usages ; à l’inférence, elle est continue, distribuée, et directement proportionnelle au volume de requêtes. C’est là que se joue la facture énergétique du déploiement à grande échelle.
Les chiffres sont nets. Un modèle de 7 milliards de paramètres — la famille des petits modèles ouverts, comme les versions distillées de LLaMA ou de DeepSeek — consomme de 5 à 10 fois moins d’énergie à l’inférence qu’un modèle de 70 milliards, toutes choses égales par ailleurs. Sur des tâches étroitement définies — classification, extraction d’information, réponse à des requêtes standardisées — l’écart peut atteindre un à deux ordres de grandeur. Ce ne sont pas des gains marginaux. Ce sont des changements d’échelle.
La distillation depuis DeepSeek-R1, publiée en accès libre début 2025 par l’entreprise chinoise du même nom, a servi de démonstration en conditions réelles. Les modèles distillés à 7 et 70 milliards de paramètres atteignent des performances comparables à GPT-4o sur les benchmarks mathématiques et de raisonnement. Le modèle à 32 milliards dépasse des modèles concurrents significativement plus gros. Ce résultat ne prouve pas que les grands modèles sont inutiles. Il prouve que pour une large fraction des usages en production, les petits modèles distillés font le travail à une fraction du coût énergétique.
Pourquoi les grandes plateformes continuent de parier sur le calcul massif
L’argument des grandes plateformes est cohérent, à condition de bien délimiter son périmètre. Les grands modèles restent nécessaires pour deux raisons principales.
La première est la recherche de la frontière. GPT-5, Gemini Ultra, Claude Opus — ces modèles ne sont pas déployés pour répondre aux mêmes requêtes qu’un modèle de 7 milliards. Ils servent à explorer ce que l’IA est capable de faire quand on ne lui impose pas de contrainte de taille : raisonnement multi-étapes complexe, intégration de modalités multiples, tâches de codage avancé, science computationnelle. Pour ces usages, plus de paramètres et plus de calcul continuent d’apporter des gains de performance mesurables. Les lois d’échelle de Kaplan et ses coauteurs, publiées en 2020, ont établi cette relation — même si leur validité à très grande échelle fait débat depuis.
La deuxième raison est stratégique plutôt que technique. Posséder l’infrastructure la plus puissante crée des barrières à l’entrée, attire les clients enterprise qui veulent garantir l’accès à la frontière, et positionne les plateformes pour capter la valeur de la prochaine génération de modèles. Microsoft a investi dans OpenAI. Google a Gemini. Amazon a Anthropic. Ces engagements ne se débouclent pas sur un résultat de trimestre.
Ce que les plateformes ne disent pas, en revanche, est que la part de leurs requêtes en production qui nécessite réellement des modèles de frontière est probablement faible. L’essentiel du volume — recherche augmentée, synthèse de documents, génération de code, assistance clientèle — se traite avec des modèles bien plus petits. La trajectoire actuelle mélange deux logiques distinctes : l’investissement en R&D pour repousser la frontière, et le surinvestissement en infrastructure pour des usages que des modèles distillés pourraient couvrir à bien moindre coût. Il est difficile de démêler les deux depuis l’extérieur, parce que les plateformes n’ont pas intérêt à le faire.
Les laboratoires ouverts comme contre-modèle
L’écart entre le récit des grandes plateformes et la pratique des laboratoires qui travaillent en accès ouvert illustre la nature du choix en jeu. Meta, avec sa famille LLaMA, a fait le pari inverse : publier des modèles de taille intermédiaire, optimisés pour le déploiement, susceptibles d’être distillés et ajustés par quiconque dispose des ressources techniques. Mistral AI, en Europe, suit une trajectoire similaire — des modèles de 7 à 22 milliards de paramètres qui rivalisent avec des modèles propriétaires bien plus gros sur la plupart des benchmarks pratiques.
Ces choix ne sont pas philanthropiques. Ils reposent sur un calcul économique différent : si les grands modèles propriétaires sont hors de portée pour la majorité des entreprises, les modèles ouverts et distillables créent un écosystème qui accélère l’adoption et génère d’autres formes de valeur. Mais le sous-produit de ces stratégies est une démonstration continue que la trajectoire haute du calcul n’est pas la seule viable.
DeepSeek a poussé cette logique à son terme. En janvier 2025, la publication en accès libre de DeepSeek-R1 et de ses dérivés distillés a provoqué une onde de choc dans le secteur. Non pas parce que le modèle surpassait GPT-4o sur tous les critères — ce n’est pas le cas — mais parce qu’il atteignait des performances comparables sur les benchmarks de raisonnement avec une fraction des ressources déclarées à l’entraînement, et parce que ses distillations ouvertes offraient immédiatement des performances de haut niveau à quiconque souhaitait les déployer. La course à la fusion entre capital-risque occidental et planification chinoise a éclairé la dimension géopolitique de cet épisode : le calcul n’est pas seulement un choix d’ingénierie, c’est un terrain de compétition entre modèles d’organisation industrielle.
Le pari nucléaire et ses hypothèses cachées
La conséquence la plus visible du programme d’investissement des grandes plateformes est la relance de l’intérêt pour l’énergie nucléaire. Microsoft a signé un accord pour redémarrer une unité de la centrale de Three Mile Island. Google a conclu des contrats avec des développeurs de petits réacteurs modulaires. Amazon a investi dans Kairos Power. Ces engagements sont réels et engagent des capitaux significatifs sur des horizons de dix à vingt ans.
La logique est simple : les data centers consomment de l’électricité en continu, indépendamment de la météo, ce qui en fait des clients idéaux pour une source d’énergie pilotable comme le nucléaire. Les énergies renouvelables, solaire et éolien, ne peuvent pas répondre seules à cette demande de base. Le raisonnement tient — à une condition : que la demande de calcul suive effectivement la trajectoire haute.
C’est ici que les hypothèses cachées deviennent visibles. Si la distillation et les techniques d’optimisation de l’inférence continuent de progresser au rythme actuel, la consommation énergétique par requête diminuera sensiblement, même si le nombre de requêtes augmente. L’effet net sur la demande d’électricité dépend de l’élasticité de la demande : si les usages se multiplient suffisamment vite pour compenser les gains d’efficacité, la trajectoire haute reste valide. C’est ce que les économistes appellent l’effet rebond, documenté pour chaque grande transition technologique depuis la machine à vapeur.
L’effet rebond est réel et probable. Mais son ampleur est incertaine. Parier 725 milliards de dollars et des décennies d’engagement nucléaire sur une trajectoire spécifique de la demande est un choix industriel, pas une lecture mécanique d’une contrainte physique. Ce choix peut se révéler juste. Il peut aussi créer des actifs surcapacitaires si les techniques légères s’imposent plus vite que prévu dans les usages en production.
Ce que l’optimisation efficace déplace dans l’économie de l’IA
L’enjeu dépasse la consommation d’électricité. Si les petits modèles distillés s’imposent comme la norme du déploiement en production, plusieurs équilibres économiques se déplacent en même temps.
Le premier concerne la concentration du marché. Les grands modèles propriétaires sont une barrière à l’entrée formidable : entraîner GPT-4 ou Gemini Ultra coûte des centaines de millions de dollars et exige une infrastructure que seules cinq ou six organisations dans le monde peuvent assembler. Les modèles distillés cassent cette barrière. Une entreprise qui ajuste un modèle de 7 milliards sur ses données propriétaires peut obtenir des performances comparables à un grand modèle pour ses usages spécifiques, avec des coûts d’infrastructure à la portée d’une PME. C’est ce que pointait notre analyse sur les organisations qui captent réellement la valeur de l’IA : l’avantage ne réside pas dans l’accès au modèle le plus gros, mais dans la capacité à l’intégrer dans des workflows opérationnels.
Le deuxième concerne la géographie de l’infrastructure. Si la demande de calcul est moins concentrée dans des grands modèles centralisés, elle peut être plus distribuée géographiquement. Des data centers de taille intermédiaire, proches des utilisateurs finaux, avec des empreintes énergétiques plus faibles, deviennent économiquement viables. C’est une trajectoire très différente de la course aux méga-campus que les grandes plateformes construisent actuellement.
Le troisième concerne le rapport au régulateur. En Europe, la directive sur l’efficacité énergétique des data centers et le règlement sur l’IA s’appliquent tous les deux à des infrastructures dont la consommation est connue et mesurable. Si les grands modèles maintiennent leur domination, le régulateur dispose d’un levier concentré sur quelques acteurs identifiables. Si les modèles distillés se distribuent, la régulation devient plus complexe. Les États américains construisent brique par brique un droit du travail à l’ère de l’IA ; la question de qui régule quoi dans un écosystème distribué n’a pas encore de réponse stabilisée.
Ni déterminisme technologique, ni illusion d’efficacité
Deux erreurs symétriques guettent l’analyse de ce dossier.
La première serait de conclure que la distillation résout le problème énergétique de l’IA. Les gains d’efficacité sont réels, mais l’effet rebond l’est aussi. Si les modèles efficaces rendent l’IA accessible à dix fois plus d’usagers et d’usages, la consommation totale peut augmenter même si la consommation par requête diminue. La demande agrégée d’électricité dépend de l’amplitude de l’adoption autant que de l’efficacité technique. L’Agence internationale de l’énergie projette un doublement de la consommation des data centers d’ici 2030 — de quelque 415 TWh en 2024 à environ 945 TWh en 2030 —, même en tenant compte des progrès d’efficacité.
La seconde erreur serait de traiter les 725 milliards d’investissements comme une décision rationnelle contrainte par la physique, qu’il n’appartient à personne de discuter. Ces investissements sont des paris industriels, portés par des entreprises qui ont intérêt à ce que la trajectoire haute de la demande de calcul se réalise. Leurs prévisions ne sont pas neutres. Cela ne les rend pas fausses, mais cela impose de les lire comme ce qu’elles sont : des projections construites par des acteurs dont les intérêts sont alignés avec une conclusion spécifique.
La question ouverte est celle du régulateur et des investisseurs en infrastructure. Si les techniques d’optimisation de l’inférence continuent de progresser au rythme des dix-huit derniers mois, à quel moment faut-il recalibrer les engagements d’infrastructure à long terme ? Les contrats nucléaires signés aujourd’hui engagent des capitaux sur des horizons qui dépassent largement un cycle technologique de l’IA. Ce décalage entre la vitesse de l’innovation algorithmique et la durée des investissements physiques est peut-être le vrai risque industriel de la décennie.
Sources
- Oviedo F. et al. (Microsoft Research), “Energy use of AI inference, efficiency pathways, and test-time scaling”, Joule, avril 2026 — https://www.cell.com/joule/fulltext/S2542-4351(26)00114-5
- Oviedo F. et al., arXiv preprint (septembre 2025) — https://arxiv.org/abs/2509.20241
- DeepSeek-R1 Technical Report, arXiv, janvier 2025 — https://arxiv.org/abs/2501.12948
- Agence internationale de l’énergie, Energy and AI, rapport officiel 2025 — https://www.iea.org/reports/energy-and-ai/executive-summary
- Agence internationale de l’énergie, Electricity 2025, rapport annuel — https://www.iea.org/reports/electricity-2025
- Kaplan, J. et al., “Scaling Laws for Neural Language Models”, arXiv, 2020 — https://arxiv.org/abs/2001.08361
- Capex 2026 des hyperscalers — Statista / Yahoo Finance — https://www.statista.com/chart/35046/capital-expenditure-of-meta-alphabet-amazon-and-microsoft/
- DeepSeek-R1-Distill-Qwen-32B, Hugging Face (officiel) — https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B