top of page
Le Mister IA's logo

Project Astra est l'avenir de l'IA chez Google.

Photo du rédacteur: Le Mister IALe Mister IA


 Siri et Alexa n'ont jamais réussi à être des assistants utiles. Mais Google et d'autres sont convaincus que la prochaine génération de bots va vraiment fonctionner.


« J'ai eu cette vision en tête pendant un bon moment », déclare Demis Hassabis, le responsable de Google DeepMind et le leader des efforts en IA de Google. Hassabis réfléchit et travaille sur l'IA depuis des décennies, mais il y a quatre ou cinq ans, quelque chose s'est vraiment cristallisé. Un jour bientôt, il a réalisé : « Nous aurons cet assistant universel. Il est multimodal, il est avec vous tout le temps. » Appelez-le le Communicateur de Star Trek ; appelez-le la voix de Her ; appelez-le comme vous voulez. « C'est ce compagnon », continue Hassabis, « qui est juste utile. Vous vous habituez à sa présence dès que vous en avez besoin. »


Lors de Google I/O, la conférence annuelle des développeurs de la société, Hassabis a présenté une version très précoce de ce qu'il espère devenir cet assistant universel. Google l'appelle Project Astra, et c'est un assistant IA en temps réel et multimodal qui peut voir le monde, savoir ce que sont les choses et où vous les avez laissées, et peut répondre à des questions ou vous aider à faire presque n'importe quoi. Dans une vidéo de démonstration incroyablement impressionnante que Hassabis jure n'est ni truquée ni modifiée de quelque manière que ce soit, un utilisateur d'Astra dans le bureau de Google à Londres demande au système d'identifier une partie d'un haut-parleur, de trouver ses lunettes manquantes, de réviser du code, et plus encore. Tout fonctionne pratiquement en temps réel et de manière très conversationnelle. Astra est juste l'une des nombreuses annonces de Gemini lors de l'I/O de cette année.



Il y a un nouveau modèle, appelé Gemini 1.5 Flash, conçu pour être plus rapide pour les tâches courantes comme la synthèse et la légende. Un autre nouveau modèle, appelé Veo, peut générer des vidéos à partir d'une invite textuelle. Gemini Nano, le modèle conçu pour être utilisé localement sur des appareils comme votre téléphone, est supposément plus rapide que jamais également. La fenêtre de contexte de Gemini Pro, qui fait référence à la quantité d'informations que le modèle peut considérer dans une requête donnée, double pour atteindre 2 millions de tokens, et Google dit que le modèle est meilleur que jamais pour suivre les instructions. Google progresse rapidement à la fois sur les modèles eux-mêmes et sur leur mise à disposition des utilisateurs. À l'avenir, dit Hassabis, l'histoire de l'IA portera moins sur les modèles eux-mêmes et davantage sur ce qu'ils peuvent faire pour vous. Et cette histoire est toute tournée vers les agents : des bots qui non seulement conversent avec vous mais accomplissent réellement des tâches pour vous. « Notre histoire avec les agents est plus longue que notre travail sur les modèles généralisés », dit-il, en faisant référence au système AlphaGo, qui joue aux jeux, datant d'il y a presque dix ans. Certains de ces agents, imagine-t-il, seront des outils ultra-simples pour accomplir des tâches, tandis que d'autres seront plus comme des collaborateurs et des compagnons. « Je pense que cela peut même dépendre des préférences personnelles à un moment donné », dit-il, « et de la compréhension de votre contexte. »


Astra, dit Hassabis, est bien plus proche que les produits précédents de la manière dont un véritable assistant IA en temps réel devrait fonctionner. Quand Gemini 1.5 Pro, la dernière version du modèle linguistique de grande envergure de Google, était prêt, Hassabis dit qu'il savait que la technologie sous-jacente était suffisamment bonne pour qu'un projet comme Astra commence à bien fonctionner. Mais le modèle n'est qu'une partie du produit. « Nous avions des composants de cela il y a six mois », dit-il, « mais l'un des problèmes était simplement la vitesse et la latence. Sans cela, l'utilisabilité n'est pas tout à fait là. » Ainsi, pendant six mois, accélérer le système a été l'une des tâches les plus importantes de l'équipe. Cela signifiait améliorer le modèle mais aussi optimiser le reste de l'infrastructure pour bien fonctionner à grande échelle. Heureusement, dit Hassabis en riant, « C'est quelque chose que Google fait très bien ! » Beaucoup des annonces d'IA de Google lors de l'I/O visent à vous donner plus de moyens et plus faciles d'utiliser Gemini. Un nouveau produit appelé Gemini Live est un assistant uniquement vocal qui vous permet d'avoir des conversations faciles et continues avec le modèle, de l'interrompre lorsqu'il devient trop verbeux ou de revenir à des parties antérieures de la conversation. Une nouvelle fonctionnalité dans Google Lens vous permet de rechercher sur le web en filmant et en commentant une vidéo. Beaucoup de cela est permis par la grande fenêtre de contexte de Gemini, ce qui signifie qu'il peut accéder à une énorme quantité d'informations à la fois, et Hassabis dit que c'est crucial pour que cela paraisse normal et naturel d'interagir avec votre assistant.

Savez-vous qui est d'accord avec cette évaluation, d'ailleurs ? OpenAI, qui parle d'agents IA depuis un moment maintenant. En fait, la société a présenté un produit remarquablement similaire à Gemini Live à peine une heure après que Hassabis et moi avons discuté. Les deux entreprises se battent de plus en plus pour le même territoire et semblent partager une vision de la manière dont l'IA pourrait changer votre vie et comment vous pourriez l'utiliser au fil du temps.

Comment ces assistants fonctionneront-ils exactement, et comment les utiliserez-vous ? Personne ne le sait avec certitude, pas même Hassabis. Une chose sur laquelle Google se concentre en ce moment est la planification de voyage — il a créé un nouvel outil pour utiliser Gemini afin de construire un itinéraire pour vos vacances que vous pouvez ensuite éditer en tandem avec l'assistant. Il y aura éventuellement beaucoup plus de fonctionnalités comme celle-ci. Hassabis dit qu'il est optimiste quant aux téléphones et aux lunettes comme dispositifs clés pour ces agents, mais dit aussi « il y a probablement de la place pour des formats excitants ». Astra est encore dans une phase de prototype précoce et ne représente qu'une des façons dont vous pourriez vouloir interagir avec un système comme Gemini. L'équipe de DeepMind recherche encore comment intégrer au mieux les modèles multimodaux et comment équilibrer les modèles généraux ultra-grands avec des modèles plus petits et plus ciblés.

Nous sommes encore très clairement dans l'ère des "vitesses et flux" de l'IA, où chaque modèle incrémental compte et nous nous obsédons sur les tailles de paramètres. Mais assez rapidement, du moins selon Hassabis, nous allons commencer à poser des questions différentes sur l'IA. De meilleures questions. Des questions sur ce que ces assistants peuvent faire, comment ils le font, et comment ils peuvent améliorer nos vies. Parce que la technologie est loin d'être parfaite, mais elle s'améliore vraiment rapidement.

0 commentaire

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page