Avec l’IA, les élèves progressent à l’exercice et reculent à l’examen

Le groupe d’élèves utilisant un tuteur IA adaptatif avec guardrails pédagogiques obtient des scores 127 % supérieurs lors des exercices assistés ; le groupe utilisant ChatGPT standard progresse quant à lui de 48 %. Ces deux chiffres, issus de l’étude Bastani et al. publiée dans le PNAS en 2025 et citée par l’OCDE dans son rapport Digital Education Outlook 2026, résument mieux qu’un rapport de mille pages le problème posé par l’intelligence artificielle en classe. Car le même élève ayant utilisé le chatbot standard, placé face à un examen sans accès à l’outil, obtient 17 % de moins que celui qui n’a jamais ouvert un chatbot.

Ce n’est pas une question technologique. C’est une question pédagogique vieille comme l’école : qu’est-ce qu’apprendre, et qui en est responsable ?

L’essentiel

  • Selon l’étude Bastani et al. (PNAS, 2025), citée par l’OCDE Digital Education Outlook 2026, le groupe utilisant un tuteur IA adaptatif avec guardrails pédagogiques progresse de 127 % à l’exercice assisté, tandis que le groupe utilisant GPT-4 standard (GPT Base) progresse de 48 % — mais ce dernier recule de 17 % à l’examen sans assistance.
  • L’étude menée en Turquie distingue deux usages radicalement différents : le chatbot standard qui fournit la réponse, et le tuteur IA qui force l’élève à raisonner avant de corriger.
  • Le groupe GPT Tutor n’enregistre pas de gain significatif à l’examen, mais ses résultats sont similaires au groupe contrôle — ce qui signifie que le tuteur IA a évité la régression observée chez les utilisateurs du chatbot standard. La pédagogie de l’outil, pas l’outil lui-même, détermine le résultat.
  • La fracture se joue moins entre élèves avec ou sans accès à l’IA qu’entre élèves avec ou sans encadrement pédagogique suffisant pour l’utiliser comme outil de pensée plutôt que comme béquille.

Un effet de levier qui se retourne

L’étude de référence porte sur des lycéens turcs apprenant les mathématiques, répartis en trois groupes : ceux qui travaillent sans aide, ceux qui utilisent GPT-4 classique (groupe GPT Base), ceux qui utilisent un tuteur IA conçu pour guider sans donner directement la réponse (groupe GPT Tutor). Les résultats, repris et mis en perspective par l’OCDE dans son rapport Digital Education Outlook 2026, sont nets.

Pendant la phase d’entraînement, le groupe GPT-4 standard distance les autres. L’IA répond, corrige, propose des variantes — les exercices sont traités plus vite, avec un taux de succès apparent bien supérieur. Un enseignant qui observerait la salle de classe verrait des élèves concentrés, efficaces, visiblement en progrès.

À l’examen, qui se déroule dans la même session de 90 minutes que la phase de pratique, immédiatement après celle-ci, la machine n’est plus là. Et le groupe GPT-4 standard chute sous le niveau du groupe contrôle — celui qui n’avait aucun outil. L’effet de levier s’est retourné. Ce que l’IA avait semblé construire, elle avait en réalité court-circuité.

Le mécanisme n’est pas mystérieux. Apprendre à résoudre un problème, c’est traverser l’inconfort de ne pas savoir. C’est chercher, tâtonner, échouer une première fois, comprendre pourquoi. C’est ce que les neurosciences de l’apprentissage appellent la “désirable difficulté” : l’effort cognitif qui rend la connaissance durable. Quand l’IA supprime cet effort en fournissant la réponse avant que l’élève ait eu le temps de chercher, elle supprime aussi l’apprentissage.

Le tuteur IA fait l’inverse — et les résultats aussi

Le troisième groupe de l’étude raconte une histoire différente. Le tuteur IA adaptatif utilisé dans ce groupe est conçu selon des principes pédagogiques explicites : il ne donne pas la réponse, il pose des questions. Il évalue le niveau de l’élève en temps réel et adapte la difficulté. Il encourage, relance, donne des indices progressifs. Quand l’élève se trompe, il l’invite à comprendre pourquoi plutôt qu’à recommencer.

À l’examen, ce groupe n’enregistre pas de gain significatif par rapport au groupe contrôle : ses résultats leur sont similaires, ce qui signifie que le tuteur IA a évité la régression observée chez les utilisateurs du chatbot standard, sans pour autant produire une progression mesurable. La différence entre les deux groupes IA n’est pas une différence de puissance technologique — ils utilisent des modèles de génération similaire. C’est une différence de design pédagogique.

L’OCDE en tire une conclusion que l’institution formule avec sa prudence habituelle, mais qui revient à ceci : l’IA en éducation n’est ni bonne ni mauvaise. Elle amplifie la pédagogie dans laquelle elle s’inscrit. Mal utilisée, elle accélère la dépendance. Bien utilisée, elle peut faire ce qu’aucun enseignant de classe surchargée ne peut faire seul : s’adapter au rythme exact de chaque élève.

Ce n’est pas une promesse nouvelle. Les tuteurs intelligents existent depuis les années 1980, et certaines méta-analyses leur attribuent des effets comparables à ceux du tutorat individuel humain — soit un gain de l’ordre d’un écart-type, ce qui place un élève médian au niveau des 20 % supérieurs. Ce qui est nouveau, c’est que l’IA générative permet de construire ces outils sans les coûts prohibitifs des systèmes antérieurs, et de les déployer à une échelle qui était hors de portée.

La fracture n’est pas celle qu’on croit

Le débat public sur l’IA à l’école tourne autour d’une fracture simple : ceux qui ont accès aux outils et ceux qui n’y ont pas accès. Cette lecture est partiellement vraie — les inégalités d’accès numérique persistent, même si elles se réduisent dans la plupart des pays de l’OCDE.

Mais les données turques pointent vers une fracture plus profonde, et plus difficile à combler par un simple équipement. Ce qui différencie les élèves qui bénéficient de l’IA de ceux qui en pâtissent, ce n’est pas l’accès à l’outil. C’est la capacité à l’utiliser comme un instrument de pensée plutôt que comme un substitut à la pensée.

Cette capacité n’est pas innée. Elle s’enseigne. Elle suppose un encadrement pédagogique suffisant pour que l’élève comprenne ce qu’il cherche, ce qu’il ne sait pas encore, et comment l’IA peut l’aider à combler cet écart sans le franchir à sa place. C’est précisément ce type d’encadrement qui est inégalement distribué selon les établissements, les filières, et les milieux sociaux.

L’ironie est cruelle : les élèves issus de milieux favorisés, qui ont déjà tendance à mieux mobiliser les ressources éducatives, sont aussi ceux qui ont le plus de chances d’être guidés vers un usage réflexif de l’IA. Les autres, livrés à eux-mêmes face à un chatbot sans cadre pédagogique, s’en servent comme raccourci — non par paresse, mais parce que personne ne leur a expliqué pourquoi la difficulté est utile. L’écart de mobilité sociale se rejoue exactement là.

On retrouve une dynamique similaire dans le monde du travail. L’IA exige des débutants une posture de senior : savoir évaluer la qualité d’une réponse, identifier ce qu’on ne sait pas, formuler une question précise. Ces compétences métacognitives sont celles que l’école est censée construire — et c’est exactement ce que l’IA mal utilisée en classe risque d’empêcher de former.

Ce que font les pays qui avancent

L’OCDE documente plusieurs initiatives nationales qui tentent de répondre à ce problème avec des moyens concrets.

En Corée du Sud, le ministère de l’Éducation a lancé en 2024 un programme de déploiement de tuteurs IA adaptatifs dans les écoles publiques, avec une formation spécifique des enseignants sur l’utilisation pédagogique des données produites par ces systèmes. L’idée n’est pas de remplacer l’enseignant par la machine, mais de lui donner un tableau de bord précis sur les lacunes individuelles de chaque élève — et de lui laisser le soin d’intervenir là où l’IA a repéré un blocage. Les premiers retours, encore préliminaires, suggèrent une amélioration de la différenciation pédagogique dans les classes pilotes.

En Finlande, des équipes de recherche de l’université d’Helsinki travaillent sur des protocoles de “débriefing post-IA” : après une séance de travail avec un outil d’IA, les élèves sont invités à expliquer à voix haute ce qu’ils ont compris, ce qu’ils auraient fait différemment sans l’outil, et ce qu’ils ne savent toujours pas. Cette pratique, simple à déployer, transforme l’interaction passive avec le chatbot en un exercice de métacognition active.

Au Royaume-Uni, Khanmigo, le tuteur IA développé par Khan Academy sur la base de GPT-4, est expérimenté dans plusieurs centaines d’écoles. L’outil est explicitement conçu pour ne jamais donner de réponse directe en mathématiques : il pose des questions, propose des étapes, et invite l’élève à valider son propre raisonnement. Les évaluations en cours ne permettent pas encore de conclure sur les effets à long terme, mais les données intermédiaires indiquent une réduction de l’abandon face aux problèmes difficiles — un marqueur souvent plus prédictif de la réussite scolaire que les scores bruts.

Ce que la technologie ne peut pas décider seule

Il serait tentant de conclure que le problème est résolu dès lors qu’on dispose du bon outil — le tuteur adaptatif plutôt que le chatbot généraliste. Ce serait passer à côté de l’essentiel.

Le tuteur IA le mieux conçu du monde produit des effets limités si l’enseignant qui l’encadre n’a pas compris comment l’intégrer dans une progression pédagogique cohérente. Il produit des effets nuls si les élèves n’ont aucune raison de s’engager avec la difficulté plutôt qu’avec le raccourci. Il produit des effets pervers si l’établissement scolaire le déploie sans former ses professeurs et sans modifier ses pratiques d’évaluation.

C’est là que la responsabilité des systèmes éducatifs est entière. Pas dans le choix de l’outil, mais dans la formation des enseignants, la conception des séquences pédagogiques, et la définition de ce qu’on cherche à évaluer. Un système qui continue d’évaluer la vitesse d’exécution plutôt que la capacité à raisonner produira des élèves qui optimiseront pour la vitesse — et l’IA est imbattable pour ça.

La question des inégalités scolaires s’invite ici avec une acuité particulière. Les établissements qui disposent des ressources pédagogiques pour former leurs enseignants à l’usage réflexif de l’IA sont rarement ceux qui en auraient le plus besoin. La fracture numérique qui importait hier était une fracture d’équipement ; celle qui se dessine aujourd’hui est une fracture de compétences pédagogiques adultes. C’est un problème d’investissement public dans la formation continue des enseignants — pas un problème de silicon.

Certains signes pointent dans la bonne direction. L’OCDE recommande depuis 2024 que les politiques d’IA en éducation intègrent obligatoirement un volet formation des enseignants au moins aussi financé que le volet équipement. La Commission européenne a inscrit dans son plan numérique pour l’éducation l’objectif de former 90 % des enseignants à “l’utilisation critique des outils numériques” d’ici 2030 — un objectif ambitieux au regard des niveaux actuels, mais dont l’inscription dans les politiques publiques marque au moins une reconnaissance du problème.

La recherche en sciences de l’éducation, longtemps marginalisée dans les débats sur la technologie scolaire, retrouve une place centrale. Des équipes comme celles de John Hattie à Melbourne ou de Robert Coe au Royaume-Uni documentent depuis des années les pratiques pédagogiques à fort impact, indépendamment de la question technologique. Leur travail converge avec les données de l’OCDE : ce qui fait progresser les élèves, c’est le feedback précis, l’exposition à la difficulté, et l’explication explicite des stratégies de pensée. L’IA peut servir ces objectifs ou les contourner. Le choix appartient à ceux qui conçoivent l’école, pas à ceux qui conçoivent l’IA.

L’examen comme révélateur

Il y a quelque chose de symbolique dans le fait que la rupture se manifeste à l’examen. L’examen sans assistance, c’est le moment où l’élève est seul avec ce qu’il a réellement appris — pas ce qu’il a semblé comprendre grâce à l’aide de la machine. C’est le révélateur chimique qui distingue l’apprentissage de la performance assistée.

Certains chercheurs plaident pour repenser l’examen lui-même : si l’IA est partout dans la vie professionnelle, pourquoi continuer d’évaluer des compétences “sans IA” ? L’argument a une part de cohérence. Mais il suppose que l’IA sera toujours disponible, toujours fiable, toujours adaptée au problème à résoudre — et que la capacité à raisonner sans elle ne vaut rien. Ce pari est risqué, et les données de l’étude turque suggèrent qu’il l’est d’autant plus que les élèves qui ont appris à raisonner seuls sont aussi ceux qui utilisent le mieux l’IA quand ils y ont accès.

La vraie question n’est pas “faut-il autoriser l’IA à l’examen ?” Elle est : quel type d’examen mesure réellement ce qu’un élève sait faire avec et sans aide, et comment l’école prépare-t-elle à ces deux modes de pensée ? Quelques systèmes éducatifs commencent à expérimenter des évaluations hybrides, avec des phases assistées et des phases autonomes, pour mesurer précisément l’écart entre les deux. La distance entre performance assistée et performance autonome devient elle-même un indicateur pédagogique.


Les résultats de l’étude turque ne disent pas que l’IA nuit aux élèves. Ils disent que l’IA mal utilisée creuse l’écart entre ceux qui savent apprendre et ceux qui ne le savent pas encore. C’est une distinction qui mérite d’orienter les choix politiques des prochaines années : pas vers l’interdiction des outils, pas vers leur déploiement aveugle, mais vers l’investissement dans la pédagogie qui détermine ce qu’on fait avec eux.

La vraie fracture scolaire de la prochaine décennie ne sera peut-être pas entre élèves connectés et élèves déconnectés, mais entre élèves qui auront appris à penser avec une machine et élèves que la machine aura appris à penser à leur place.


Sources

  1. OCDE Digital Education Outlook 2026 — https://www.oecd.org/en/publications/oecd-digital-education-outlook-2026_062a7394-en.html
  2. Étude primaire : Bastani H., Bastani O., Sungu A., Ge H., Kabakcı Ö., Mariman R. (2025). « Generative AI without guardrails can harm learning: Evidence from high school mathematics. » PNAS, 122(26) — https://www.pnas.org/doi/10.1073/pnas.2422633122
  3. SSRN preprint – Bastani et al. (2024) — https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4895486
  4. Kulik & Fletcher (2016), méta-analyse sur les tuteurs intelligents — https://journals.sagepub.com/doi/10.3102/0034654315581420
  5. Wikipedia – Intelligent Tutoring System (historique) — https://en.wikipedia.org/wiki/Intelligent_tutoring_system
  6. Khan Academy — Khanmigo, tuteur IA basé sur GPT-4 : https://www.khanacademy.org/khanmigo
  7. Commission européenne, Plan d’action pour l’éducation numérique 2021-2027 : https://education.ec.europa.eu/focus-topics/digital-education/action-plan