OpenAI est l'une des plus grandes sociétés d'IA au monde et a façonné certaines des intelligences artificielles les plus avancées de notre époque. Certains de ses modèles comme GPT 3.5, GPT-4 et GPT-4 Turbo ont redéfini ce que l'IA peut faire et en ont fait l'un des principaux concurrents d'entreprises comme Google. Eh bien, le dernier et le meilleur modèle d'IA d'OpenAI s'appelle GPT-4o, et c'est son modèle le plus puissant à ce jour. Qu'est-ce que GPT-4o et comment peut-il vous être utile dans votre parcours vers l'IA ?

C'est à cela que nous sommes ici pour répondre. Nous allons expliquer ce qu'est ce modèle d'IA, ce qu'il peut faire, ce qu'il ne peut pas faire, ainsi que d'autres informations sur lesquelles vous vous posez peut-être des questions. Nous répondrons aux questions importantes et vous ferons savoir si vous devez l'utiliser par rapport à d'autres modèles tels que Gemini, Claude, Meta AI, etc.

Nous aborderons les questions les plus importantes que vous pourriez vous poser. Cependant, puisqu'il s'agit d'intelligence artificielle, il y a certains aspects que nous ne pouvons pas trop approfondir, car cela rendrait cet article beaucoup trop long. Cela implique de plonger dans certaines connaissances scientifiques et détails complexes du modèle.

Enfin, cet article sera mis à jour à chaque fois que GPT-4o recevra un nouvel ajout. N'hésitez donc pas à revenir de temps en temps pour voir les nouveautés de GPT-4o. Sans plus tarder, plongeons-nous.

Qu’est-ce que GPT-4o ?

Si vous avez suivi le développement des modèles d'OpenAI, vous avez peut-être eu vent de son schéma de dénomination plutôt non conventionnel. GPT-4o ne semble pas grand-chose, mais c'est le modèle d'IA le plus puissant d'OpenAI à ce jour. C'est le successeur du GPT-4 Turbo. Donc, si vous utilisez les outils d'IA les plus avancés d'OpenAI, vous utilisez probablement GPT-4o.

Comment accéder au nouveau modèle ?

Il existe plusieurs façons. Premièrement, vous pourrez accéder à GPT-4o de la même manière que vous accédez régulièrement à ChatGPT. Vous pouvez accéder directement au site ChatGPT ou utiliser l'application mobile dédiée.

Lorsque OpenAI a annoncé GPT-4o, la société a également annoncé un autre moyen d'accéder au modèle. Il a annoncé une nouvelle application de bureau Mac OS. Cela transforme essentiellement ChatGPT en un assistant de chat sur votre ordinateur. Vous pouvez l'invoquer en utilisant un simple raccourci clavier et interagir avec une barre de texte flottante qui apparaît. Parallèlement à cela, vous pouvez saisir des images, ajouter des captures d'écran et prendre des photos avec l'appareil photo natif de votre appareil pour la saisie. Au moment d’écrire ces lignes, nous attendons toujours la sortie d’une fonctionnalité vocale pour l’application. Nous ne savons pas quand cela va atterrir.

Quant aux utilisateurs Windows, au moment d’écrire ces lignes, il n’existe aucune application Windows. Cependant, OpenAI travaille actuellement à la création d'une application Windows qui fera à peu près la même chose. La société prévoit de le lancer plus tard en 2024, les utilisateurs de Windows devront donc rester à l'écoute.

Une autre façon d'accéder à GPT-4o consiste à utiliser Microsoft Copilot. Comme vous le savez peut-être, Microsoft a investi massivement dans OpenAI et la société utilise sa technologie d'IA pour alimenter Copilot. En tant que tel, certaines des fonctionnalités les plus avancées de Copilot sont très probablement alimentées par GPT-4o. La société a récemment annoncé les nouveaux PC alimentés par Copilot, et nous sommes certains qu'une partie de la technologie d'IA fortement intégrée est alimentée par GPT-4o. Donc, si vous êtes entièrement favorable au Copilot de Microsoft et à la manière dont il peut améliorer l'expérience Windows, vous utilisez probablement GPT-4o.

Dois-je m'y inscrire ?

Non. Si vous possédez déjà un compte OpenAI, il vous suffit de vous rendre sur le site ChatGPT, de cliquer sur le menu déroulant en haut de l'écran et de sélectionner le modèle que vous souhaitez utiliser. Si GPT-4o est disponible dans votre région, il sera alors disponible à la sélection.

Cependant, si vous n'avez pas de compte OpenAI, vous souhaiterez en créer un afin d'utiliser le nouveau modèle. De plus, la création d'un compte OpenAI vous donnera accès à d'autres fonctionnalités que les titulaires de compte peuvent utiliser pour acquérir une expérience plus personnalisée. Vous disposerez également d'un historique de discussion pour voir l'arriéré de vos conversations.

Le « O » dans GPT-4o signifie-t-il quelque chose ?

Oui, le « O » signifie « Omni ». Nous sommes sûrs qu'OpenAI considère cela comme un modèle tout-en-un pouvant satisfaire la plupart de vos besoins.

Le GPT-4o est-il multimodal ?

Oui c'est le cas. En utilisant GPT-4o, vous pouvez saisir des invites textuelles classiques. Il alimentera ChatGPT tout comme les autres modèles. De plus, GPT-4o peut également comprendre la parole. Grâce à la fonction vocale, vous pouvez parler au modèle comme vous le feriez avec n'importe quel assistant numérique.

Non seulement cela, mais GPT-4o peut également comprendre les entrées visuelles. Il dispose d'une fonction de vision qui lui permettra d'utiliser un viseur d'appareil photo pour connaître le monde, un peu comme Google Lens ou la broche AI. Il aura également la capacité de voir ce qui se trouve sur l'écran de votre ordinateur et de vous donner des informations en fonction de ce qu'il voit.

Vous pourrez poser des questions GPT-4 sur ce qui se trouve sur votre écran, comme le texte, les images, les pages Web, etc. Depuis fin mai 2024, cette fonctionnalité n'est plus disponible. Cet article sera mis à jour dès qu'il sera disponible.

Comment accéder à la fonctionnalité de vision ?

L'une des fonctionnalités les plus intéressantes annoncées par OpenAI avec GPT-4o était l'amélioration de la fonctionnalité de vision. Cela permet au modèle de voir ce qui est actuellement sur votre écran et de répondre aux questions sur ce qu'il voit. Non seulement cela, mais la fonctionnalité de vision arrive également dans la version mobile de ChatGPT.

La société a montré la capacité de ChatGPT à voir un aperçu en direct du monde à travers le viseur de votre appareil photo. Il pourra répondre aux questions sur ce qu’il observe.

Lors de l'annonce, il a pu identifier des problèmes mathématiques écrits sur un morceau de papier et aider la personne à les résoudre. Parallèlement à cela, il était même capable de regarder le visage d'une personne et de dire quelle émotion elle ressentait. Ceci est similaire au projet Astra de Google que la société a annoncé juste un jour après la fonctionnalité Vision d'OpenAI. Il y aura donc certainement des comparaisons entre ces deux fonctionnalités.

Y a-t-il une mise à niveau de la fonctionnalité vocale ?

La fonction vocale a bénéficié d’une mise à niveau assez notable. Le GPT-4o était censé être un modèle beaucoup plus efficace et plus rapide que le GPT-4 turbo. Cela se ressent principalement dans la fonction vocale. Lorsque OpenAI a présenté la nouvelle fonctionnalité vocale, nous avons constaté que les utilisateurs obtenaient des réponses beaucoup plus rapidement. Vous pouvez presque imiter une conversation en temps réel avec une personne qui vous répond instantanément.

La réponse prenait encore une seconde ou deux, mais c’était quand même une amélioration. La voix que vous entendez dans la réponse est également bien améliorée. Cependant, depuis fin mai 2024, la voix en temps réel a été suspendue. Il existe actuellement des tensions persistantes entre OpenAI et Scarlett Johansson. La nouvelle voix qui a été dévoilée ressemble étonnamment à la voix de Scarlett Johansson, et elle a exprimé son dégoût pour cela. L’entreprise est donc en train de changer de direction.

Quelle est la fenêtre contextuelle de GPT-4o ?

En ce qui concerne la fenêtre contextuelle, GPT-4o est encore assez loin derrière le reste du peloton. Actuellement, il dispose d’une fenêtre contextuelle de 128 000 jetons. C'est la même chose que GPT-4 Turbo. Bien qu'il s'agisse d'une amélioration majeure par rapport à la limite de 8 192 jetons de GPT-4, elle reste bien en deçà de ce que nous obtenons de Gemini 1.5 Pro, qui peut atteindre jusqu'à 1 million de jetons. Google teste même une limite expérimentale de 2 millions de jetons pour Gemini 1.5 Pro. OpenAI a donc encore beaucoup de retard à rattraper.

Combien coûte l’API GPT-4o par million de jetons ?

Bien que GPT-4o partage la fenêtre contextuelle de GPT-4 Turbo, il ne partage pas son prix par million de jetons. GPT-4o a un coût d'entrée de 5 $ par million de jetons et un coût de sortie de 15 $ par million de jetons. C'est la moitié de ce que vous payez avec GPT-4 Turbo, qui a un coût d'entrée de 10 $ par million de jetons et un coût de sortie de 30 $ par million de jetons.

GPT-4o génère-t-il des images ?

Non. La principale plateforme de génération d'images d'OpenAI est toujours DALL-E. Cependant, il prend en charge la saisie d'images.

Combien de langues GPT-4o prend-il en charge ?

GPT-4o est disponible dans plus de 50 langues.

Quelle est la date limite de connaissance pour GPT-4o ?

C’est un domaine dans lequel GPT-4 Turbo a son successeur. GPT-4 Turbo a une date limite fixée à décembre 2023. Cela signifie qu'il n'a aucune connaissance du monde créé après cette date. GPT-4o, en revanche, s'arrête en octobre 2023. Cela fait donc 2 mois de données auxquelles l'entreprise n'a pas accès par rapport à son prédécesseur. De plus, si vous posez des questions à GPT-4o, il ne saura rien au-delà d'octobre 2023. Il n'a donc aucune connaissance de quoi que ce soit qui se passe en 2024. C'est quelque chose à garder à l'esprit.

GPT-4o peut-il être un traducteur ?

Oui. L'une des principales fonctionnalités présentées lors du dévoilement de GPT-4o était la fonctionnalité de traduction. Il est capable de traduire de nombreuses langues en temps réel. Non seulement il est capable de traduire différentes langues, mais il réagit également de manière très humaine. Plutôt que de traduire le discours mot à mot, cela vous donnera un résumé très humain de ce que l'autre personne a dit.

Si un Italien demande « Où est le Starbucks le plus proche ? », GPT-4o ne traduira pas cette réponse mot pour mot. Cependant, cela donnera une traduction à consonance très humaine comme « Il veut savoir où se trouve le Starbucks le plus proche ». Ceci est délivré d’une manière similaire à ce qu’une personne dirait plutôt que de traduire mot à mot.

GPT-4o est-il disponible pour les utilisateurs gratuits ?

Oui, mais il y a une mise en garde majeure. Les utilisateurs gratuits peuvent utiliser les fonctionnalités de GPT-4o, telles que la navigation sur le Web, l'analyse et l'extraction d'informations à partir de données, le téléchargement d'images dans des invites, la fourniture de fichiers et d'invites de support et l'utilisation de GPT. Quelle est la mise en garde ? Eh bien, vous ne pouvez les utiliser qu’un nombre limité de fois sur une période de trois heures. Après cela, vous reviendrez à GPT 3.5.

OpenAI vous avertira une fois que vous aurez atteint votre limite et vous indiquera à quelle heure votre limite sera réinitialisée.

Les utilisateurs de ChatGPT Plus sont-ils également limités ?

Malheureusement oui. Si vous payez 20 $/mois pour accéder à GPT-4o, vous pourrez envoyer jusqu'à 80 messages toutes les trois heures. Une fois cette limite atteinte, vous serez ramené à un modèle moins puissant. Une fois les trois heures écoulées, votre limite sera réinitialisée.

Comment accéder à une limite supérieure à l’aide du modèle ?

À ce stade, il ne semble pas y avoir de moyen d’augmenter votre limite. Cependant, si vous êtes dans un espace de travail ChatGPT Team, vous devriez avoir accès à environ deux fois plus de messages.

Mes messages inutilisés sont-ils reportés ?

Non, ils ne pas. Si vous n'utilisez que 60 de vos messages et que 3 heures s'écoulent, les 20 messages restants ne seront pas ajoutés à votre limite actualisée. Vous recommencerez à 80 messages.

GPT-4o est-il meilleur que Gemini 1.5 Pro ?

C'est une question assez difficile à répondre, mais GPT-4o a de nombreux atouts. Bien que Gemini1.5 pro ait une fenêtre contextuelle beaucoup plus grande, il semble que GPT-4o soit bien meilleur en compréhension et en raisonnement. Une entreprise a fait une comparaison entre les deux modèles en leur posant certaines questions logiques et en leur demandant de vérifier les images. Au total, huit questions ont été posées. Gemini 1.5 Pro n'a battu GPT-4o dans aucune des questions.

Cependant, GPT-4o a battu Gemini avec six des huit questions. Pour les deux questions pour lesquelles GPT-4o n'a pas battu Gemini, les deux modèles ont répondu correctement à l'une d'entre elles et les deux modèles ont eu tort. Ainsi, en termes de raisonnement et de résolution de problèmes, il apparaît que GPT-4o est assez loin devant Gemini.

GPT-4o à l'avenir

À ce stade, nous attendons toujours que quelques fonctionnalités débarquent sur le nouveau modèle. Celles-ci incluent certaines fonctionnalités vocales et visuelles, donc si vous les attendez, vous devrez être patient.

En dehors de cela, nous nous attendons à ce qu’une série d’améliorations typiques telles qu’un meilleur raisonnement, un traitement plus rapide, etc. soient apportées au cours des prochains mois. Nous ne savons pas si ce sera la prochaine étape avant GPT-5. Cependant, cela reste à voir.

A lire également