Benchmark montre des experts assortis de l'IA

Autant que nous détestions l'admettre, il y a une possibilité distincte que l'IA puisse un jour prendre notre emploi. Nous constatons déjà que cela se produit, en particulier dans l'espace graphique, où les utilisateurs peuvent facilement générer une image professionnelle avec quelques invites simples. Mais combien de temps pouvons-nous nous attendre à ce que l'IA nous remplace vraiment dans l'espace de travail? C'est quelque chose que Openai a décidé de découvrir dans un récent benchmark pour voir à quel point son modèle GPT-5 fait des travaux humains.

Benchmarks Openai GPT-5 contre les emplois humains

Cette nouvelle référence est appelée GDPVAL. Selon OpenAI, il mesure les modèles d'IA comme GPT-5 sur les tâches qu'un humain pourrait faire à leur travail. « Il mesure les performances du modèle sur les tâches tirées directement du travail de connaissances réelles de professionnels expérimentés à travers un large éventail de professions et de secteurs, fournissant une image plus claire de la façon dont les modèles fonctionnent sur des tâches économiquement précieuses. «

Actuellement, le GDPVAL est basé sur neuf industries qui contribuent le plus au PIB américain. Cela comprend les soins de santé, les finances, la fabrication et le gouvernement, pour n'en nommer que quelques-uns. Dans l'un des tests, OpenAI a demandé aux professionnels de l'industrie de comparer les rapports générés par l'IA et ceux d'autres professionnels. Il a également demandé aux banquiers d'investissement de créer un paysage concurrent pour l'industrie de la livraison du dernier mile et de le comparer aux rapports générés par l'IA.

Étonnamment et quelque peu inquiétant, le modèle GPT-5 d'OpenAI a effectué le meilleur de tous les modèles de l'entreprise. Openai a constaté que les travaux générés par GPT-5 étaient soit mieux classés, soit à égalité avec les experts de l'industrie 40,6% du temps. L'entreprise a également jeté un coup d'œil à son concurrent, anthropique, et son modèle Claude AI. Claude semblait mieux performer avec un taux de victoire de 49%. Cependant, Openai pense que c'est parce que Claude est meilleur pour faire « graphiques agréables. «

Cela remplacera-t-il les humains à leur travail?

Comme nous l'avons dit, il est possible que certains emplois puissent éventuellement suivre le chemin du dinosaure. Cependant, pour l'instant, il semble que nous soyons dans une période de transition. S'adressant à TechCrunch, l'économiste en chef d'Openai, le Dr Aaron Chatterji, suggère que sur la base des résultats du GDPVAL, il ne s'agit pas de remplacer l'IA des humains. Mais plutôt, il s'agit que les humains tirent parti de l'IA pour libérer du temps pour des tâches plus significatives.

Par exemple, votre travail peut vous obliger à taper des rapports en fonction des données. Au lieu de passer des heures à formater tout, l'IA peut faire le travail pour vous en quelques minutes. Cela libérerait le temps pour que vous puissiez passer d'autres tâches au travail ou même à celles personnelles. Cela ressemble à un compromis équitable.