À l’heure actuelle, la technologie se développe à un rythme rapide et les modèles d’IA sont capables de détecter plusieurs types de médias. Eh bien, Google vient d'annoncer que son nouveau modèle d'IA, Gemini 1.5 Pro, comprend désormais l'audio. Cette nouvelle intervient peu de temps après que Google a annoncé Gemini dans Android Studio.

Pour que les modèles d’IA apprennent, ils doivent recevoir une tonne de données. Au début, les modèles d’IA étaient principalement formés sur des données textuelles. Ceci est surtout important pour les chatbots. Cependant, au fil du temps, ils ont acquis la capacité de traiter les données d’image. Plusieurs chatbots vous donnent la possibilité de télécharger vos propres images pour les reconstruire ou les vérifier.

Gemini 1.5 Pro peut comprendre les fichiers audio

Lorsque Google a présenté Gemini au public pour la première fois, la société a déclaré qu'elle serait éventuellement en mesure de détecter plusieurs formes de médias tels que les images, l'audio et la vidéo. Eh bien, il est capable de vérifier les images depuis un certain temps, et la société vient d'en cocher une autre. Gemini 1.5 Pro est le dernier modèle d'IA de la société et il est actuellement en cours de test. Ce qui est intéressant avec ce modèle, c'est qu'il est en fait encore plus puissant que le Gemini Ultra. L’entreprise se surpasse donc.

Cette dernière mise à jour lui donne la possibilité d'analyser et de traiter les fichiers audio. Ainsi, si vous souhaitez un résumé d'une longue keynote, d'une conversation, d'un appel sur les résultats, etc., vous pourrez télécharger l'audio directement sur Gemini. S’il existe des outils permettant de résumer les conversations (il existe même des outils disponibles sur les smartphones), cette implémentation est différente. Les outils actuels transcriront le discours en texte puis résumeront la conversation à partir du texte. Cependant, Gemini 1.5 pourra supprimer les intermédiaires et écouter l'audio directement. Cela pourrait éventuellement augmenter la précision.

Si vous souhaitez utiliser cette fonctionnalité, il y a des nouvelles décevantes. Pour utiliser cette fonction, vous devrez utiliser la plateforme de développement de Google appelée Vertex AI. De plus, vous pourrez l'utiliser si vous utilisez AI Studio. Donc, si vous attendez une sortie publique, vous devrez simplement être patient.

A lire également