La Texas Education Agency (TEA) teste l’intelligence artificielle générative (Gen AI) dans son système de notation. La nouvelle technique de notation utilisera des chatbots comme ChatGPT d'OpenAI pour comprendre et communiquer avec les utilisateurs.

Le Texas embauchera beaucoup moins d’évaluateurs humains cette année, car il les remplace par un nouveau système de notation alimenté par l’IA. Les examens STAAR (State of Texas Assessments of Academic Readiness) pourraient servir de banc d’essai pour remplacer la majorité des évaluateurs humains par la génération AI.

Le Texas forme un système de notation Gen AI pour remplacer les évaluateurs humains

La Texas Education Agency aurait confirmé qu’elle « déployait un moteur de notation automatisé pour les questions ouvertes sur l’évaluation de l’état de préparation scolaire de l’État du Texas pour la lecture, l’écriture, les sciences et les études sociales ».

Les examens imposés par l'État au Texas cette année seront historiques. Les étudiants qui se présenteront à leurs examens STAAR cette semaine auront beaucoup moins d’évaluateurs humains que l’année dernière. Un moteur de traitement du langage naturel, communément appelé Generative AI, évaluera la plupart de leurs réponses.

Le test STAAR mesure la compréhension par les étudiants du programme de base mandaté par l'État. L’État du Texas l’a repensé l’année dernière. Il est intéressant de noter que le test comporte désormais beaucoup moins de questions à choix multiples. Le Texas les a remplacés par des « questions ouvertes » ou des « éléments à réponse construite ».

Selon le Tribune du Texasles questions ouvertes nouvellement introduites auraient « six à sept fois plus d’éléments de réponse construits ».

En termes simples, ces questions ouvertes comportent plusieurs réponses acceptables, comparativement à une seule réponse dans une question à choix multiples. Par conséquent, de telles questions nécessitent beaucoup plus de temps et de notation des évaluateurs, a déclaré Jose Rios, directeur de l'évaluation des étudiants à la Texas Education Agency.

En d’autres termes, ces questions augmentent considérablement la complexité de la notation. Et c’est là que la génération AI brille vraiment. Les plates-formes telles que ChatGPT ont fait leurs preuves en matière de réponse à des requêtes complexes à plusieurs niveaux de simplicité et de profondeur.

Le Texas estime que la génération AI permettra d'économiser entre 15 et 20 millions de dollars chaque année

La TEA a entraîné le système de notation Gen AI à l’aide de 3 000 réponses. Par mesure de sécurité, la génération AI est exposée à des réponses qui ont subi deux cycles de notation humaine. Le moteur de notation de l’IA aurait appris les caractéristiques des réponses et serait programmé pour attribuer les mêmes scores qu’un humain aurait attribué.

Les évaluateurs humains réévalueront un quart de tous les résultats notés par ordinateur. De plus, certaines réponses susceptibles de confondre le système de notation de l’IA, comme les réponses en argot ou dans une langue autre que l’anglais, seraient transmises à des évaluateurs humains.

La TEA estime qu’elle permettra d’économiser entre 15 et 20 millions de dollars par an en réduisant le besoin de marqueurs humains temporaires. Statistiquement parlant, le Texas prévoit d'embaucher moins de 2 000 évaluateurs humains cette année. En 2023, le Lone Star State avait embauché environ 6 000 évaluateurs pour le même examen. Il va sans dire que plusieurs éducateurs ont exprimé leurs inquiétudes face à la nouvelle technique d’évaluation.

A lire également