Waymo a indiqué qu'il utiliserait Google Gemini AI pour son « robotaxis » autonome. L'entreprise semble développer un nouveau modèle de formation pour ses véhicules autonomes, qui exploitera les données du Multimodal Large Language Model (MLLM) Gemini de Google.

Waymo publie un nouveau document de recherche sur les MLLM aidant les robotaxis

Waymo LLC était auparavant connu sous le nom de Google Self-Driving Car Project. Il s'agit d'une entreprise américaine de technologie de conduite autonome. Waymo a progressivement construit du matériel et des logiciels pour les robotaxis afin de transporter en toute sécurité les passagers sur les routes très fréquentées.

Waymo a publié un nouveau document de recherche, rapporté Le bord. Intitulé «Modèle multimodal de bout en bout pour la conduite autonome» ou EMMA, le document de recherche fait référence à un nouveau MLLM dédié aux véhicules autonomes.

Ce nouveau modèle de formation de bout en bout traiterait les données des capteurs et générerait des « trajectoires futures pour les véhicules autonomes ». Inutile de dire que cela aiderait les véhicules sans conducteur de Waymo à prendre des décisions intelligentes sur la route. Le robotaxis Waymo pouvait prédire en toute confiance où aller et comment éviter les obstacles.

Comment Google Gemini va-t-il aider Waymo ?

Depuis plusieurs années, les algorithmes destinés aux véhicules sans conducteur ont adopté des solutions ou des modules compartimentés pour répondre à chaque fonction critique. En d’autres termes, les entreprises technologiques ont tenté d’aborder des aspects tels que la perception, la cartographie, la prédiction et la planification, indépendamment les uns des autres.

Une telle approche a contribué à résoudre les problèmes des véhicules autonomes. Cependant, avec cette approche, les entreprises ont rencontré des difficultés lors de la mise à l’échelle de leurs solutions. Cela est dû à « des erreurs accumulées entre les modules et à une communication inter-modules limitée », a mentionné Waymo dans le document de recherche.

De plus, les paramètres « prédéfinis » ont empêché ces solutions de répondre aux « nouveaux environnements » alors qu’elles avaient du mal à « s’adapter ». Gemini de Google est une intelligence artificielle générative (Gen AI). Il s’agit d’une IA « généraliste » que le géant de la recherche a formée sur de vastes ensembles de données récupérées sur Internet.

Deuxièmement, les plates-formes Gen AI se sont avérées démontrer des capacités de raisonnement « supérieures » grâce à des techniques telles que le « raisonnement en chaîne de pensée », a suggéré Waymo. En termes simples, les Gémeaux peuvent imiter le raisonnement humain et, par conséquent, le LLM pourrait « penser » comme un conducteur.

Bien que Google Gemini puisse aider Waymo, l’IA EMMA devra toujours bien jouer avec les nouvelles données, ce que les véhicules autonomes doivent faire en permanence. Plus précisément, EMMA a rencontré des problèmes pour intégrer les entrées de capteurs 3D provenant du lidar ou du radar, a admis Waymo.

A lire également