Top Qs
Chronologie
Chat
Contexte
Gemini (IA)
chatbot de conversation artificielle De Wikipédia, l'encyclopédie libre
Remove ads
Gemini, anciennement Bard, est un assistant conversationnel développé par Google. Pour générer du texte, il se base sur une famille de grands modèles de langage également appelée Gemini, introduite au public le [1]. Gemini est l'acronyme de Generalized Multimodal Intelligence Network. Les modèles se déclinent en trois tailles: nano, pro et ultra[2].
Gemini peut comprendre et interagir avec l'audio et la vidéo, et générer du texte (poésie, scripts, pièces musicales, courriels, lettres, etc.), du code, des traductions (entre plus de 100 langues). Il peut produire plusieurs types de contenu créatif (images, dessins, sons, musique, vidéos…), aider des chercheurs en analysant des données ou en générant des hypothèses. Gemini peut répondre aux questions de manière informative ou en produisant des cours personnalisés, des jeux, des tutoriels, etc., avec les limites des IA (erreurs, biais, « hallucinations »…).
Il est disponible via une application moblile et est directement intégré sur plusieurs appareils dont les écrans (smartphones, tablettes, montres pixel watch, etc...) Google pixel ainsi que les produits de la gamme Nest de Google.[3]
Remove ads
Description
Résumé
Contexte
Gemini désigne une famille de transformeurs génératifs préentraînés permettant notamment de générer du texte. Le terme désigne également l'assistant conversationnel qui utilise ces modèles.
Multimodalité
Gemini a été annoncé en 2023 comme devant surpasser les modèles existants comme GPT-4, en pouvant traiter simultanément et de manière polyvalente divers types différents de données (texte, images, sons et vidéos). Il peut ainsi répondre à une large variété de demandes, comme la génération de textes écrits, d'images, de sons et de code ; l'analyse de flux vidéo, la création de modèles 3D complexes, l'analyse et l'interprétation de graphiques complexes, de cartes, etc.[4],[5]. L'architecture de Gemini comporte un encodeur et un décodeur. L'encodeur de Gemini convertit certains types de données en vecteurs, que le décodeur peut comprendre et utiliser pour la génération[6].
Variantes
Selon Google, Gemini est particulièrement douée pour le codage informatique, grâce à son nouveau système de génération de code AlphaCode 2 basé sur Gemini Pro, qui lui permettrait de surpasser 85 % des concurrents[7]. Google DeepMind a également conçu Gemini Robotics, un modèle vision-langage-action permettant de contrôler des robots[8].
Remove ads
Histoire
Résumé
Contexte
Contexte
Au début des années 2020, dans le domaine de l'IA générative, Google a été distancé par ChatGPT. Tout en poursuivant ses projets d'IA (ex. : Teachable Machine, Quick Draw, AutoDraw, Art Palette, ou Semantris et BARD) Google a mis en avant son nouveau projet majeur : Gemini AI, qui est une collaboration entre Google Brain (connue pour avoir créé l'outil Google Traduction, ainsi que TensorFlow, les modèles Transformer (le T de GPT) et le modèle LaMDA, qui permet à Bard de fonctionner) et DeepMind (filiale de Google, notamment connue pour avoir créé AlphaGo, le système d'IA qui a battu Lee Sedol au jeu de go en 2016, et AlphaFold capable de prédire la structure des protéines). Ces deux groupes ont fusionné en 2023 pour accélérer la mise au point de Gemini après le succès de ChatGPT.
En novembre 2022, OpenAI a lancé ChatGPT, un assistant conversationnel (chatbot) initialement basé sur GPT-3.5. ChatGPT a attiré l'attention du monde entier après sa sortie, devenant une sensation virale sur Internet. Alarmé par la menace potentielle de ChatGPT pour la recherche Google, le PDG de Google, Sundar Pichai, a émis une alerte « code rouge » à l'échelle de l'entreprise, réaffectant plusieurs équipes pour venir renforcer les efforts de l'entreprise en matière d'IA[9]. Dans un geste rare et sans précédent, les cofondateurs de Google Larry Page et Sergey Brin, qui avaient quitté leurs fonctions de co-PDG de la société mère de Google Alphabet en 2019, ont été convoqués à des réunions d'urgence avec des dirigeants de l'entreprise pour discuter de la réponse de Google à ChatGPT.
Interrogés par les employés lors d'une réunion générale pour savoir si le grand modèle de langage LaMDA était une occasion manquée pour Google de concurrencer ChatGPT, Sundar Pichai et Jeff Dean (le dirigeant de Google AI) ont déclaré que Google avait des capacités similaires, mais aller trop vite dans ce domaine représenterait un « risque réputationnel » majeur en raison du fait que Google est nettement plus grand qu'OpenAI[10],[11]. En janvier 2023, le PDG de DeepMind, Demis Hassabis, a annoncé les plans d'un rival de ChatGPT, et les employés de Google ont été chargés d'accélérer les progrès sur un concurrent de ChatGPT, en testant intensivement « Apprentice Bard » et d'autres chatbots[12],[13]. Sundar Pichai a assuré lors de l'appel aux investisseurs pendant la présentation des résultats trimestriels de Google en février que la société avait l'intention d'étendre la disponibilité et les applications de LaMDA[14].
Peu de données étaient disponibles sur Gemini avant décembre 2023, mais selon Google, ce nouveau système d'IA pourrait remplacer et améliorer PaLM 2 de Google, dont en intégrant des techniques plus efficaces d'apprentissage par renforcement, permettant une amélioration continue des capacités des systèmes d'IA à répondre à des questions complexes.
Dès le début d'année 2023, Google avait annoncé une riposte claire à OpenAI au travers du projet Sparrow un chatbot qui avait l'avantage, contrairement à ChatGPT, de citer ses sources[15], gagnant ainsi en crédibilité.
Gemini a été entrainé sur les Tensor Processing Units (TPU) de Google[réf. nécessaire]. Plus rapide et moins couteux dans ses exécutions que les précédents modèles de Google (comme PaLM), Gemini intègre en particulier des « mécanismes d'attention » (MA) perfectionnés, permettant aux réseaux de neurones artificiels de « concentrer » leurs calculs sur les parties les plus pertinentes des « données d'entrée », pour générer ensuite des « sorties » plus cohérentes, et répondant plus fidèlement aux « invites » des utilisateurs.
La capacité annoncée de Gemini à générer et combiner des objets sonores, visuels (graphiques et cartographie y compris) et du texte devrait également lui permettre de générer plus d'un type de données à la fois. Gemini pourra probablement, par exemple, extraire des caractéristiques d'une vidéo, d'un podcast ou d'un texte complexe pour en générer une analyse ou un résumé en tenant compte plus finement des demandes de l'utilisateur, mais aussi — et éventuellement dans le même temps — créer du contenu nouveau et le mettre en page, l'illustrer d'images, de graphiques et/ou de cartographies, en créer une version vidéo ou podcast, multilingue, etc.
Bard et Gemini Pro
Le 2023, Google a annoncé Bard, un chatbot utilisant LaMDA pour générer du texte[16]. Bard a d'abord été déployé auprès d'un groupe restreint de « testeurs de confiance[17] », avant une large diffusion prévue à la fin du mois[18],[19]. Il a été développé sous le nom de code « Atlas »[20]. Dans la foulée de l'annonce de Google, le rival de Google, Microsoft, a révélé son partenariat avec OpenAI pour intégrer ChatGPT dans son moteur de recherche Bing, après avoir précédemment investi 10 milliards $ dans OpenAI[21],[22].
Bard a été présenté dans une vidéo promotionnelle sur Twitter le . Lors de cette vidéo, Bard s'est trompé en répondant à une question sur le télescope James Webb, provoquant l'inquiétude quant à la fiabilité du chatbot et dans la foulée la chute de l'action Google (Alphabet) de plus de 7 %[23]. Google Bard a été interrogé sur les nouvelles découvertes du télescope spatial James Webb et a répondu avec trois puces, y compris une déclaration selon laquelle le télescope « a pris les toutes premières images d'une planète en dehors de notre propre système solaire ». Cependant, cette affirmation était incorrecte[24].
Mi-2023, Gemini est encore en phase d'entraînement, et testé pour sa sécurité. Comme c'était déjà le cas pour PaLM 2, Google propose plusieurs itérations du modèle, de tailles différentes, qui seront exploitées en fonction des avancées de l'IA, des besoins émis en interne par les services ou filiales de Google, puis par les utilisateurs et clients, et en fonction de contraintes spécifiques[25]. Les versions de Gemini, en différentes tailles et capacités[26], pourraient être disponibles via le « Google Cloud Vertex AI » (anciennement « Google AI Platform »), une « plateforme d'apprentissage automatique, qui regroupe tous les services cloud de Google, permet de faciliter le déploiement et la maintenance des modèles d'IA »[25]. Une version préliminaire de Gemini a été fournie à un petit groupe externe de développeurs et d'entreprises afin d'effectuer des tests[27].
Depuis le [28], Bard utilise un modèle d'intelligence artificielle appelé Gemini Pro lorsqu'il communique en anglais. Ce modèle peut traiter et fusionner différents types d'informations tels que le texte, les images, l'audio et le code. Gemini Pro est actuellement disponible uniquement pour l'anglais sur Bard, mais son expansion à d'autres langues et régions, notamment en Europe, est prévue prochainement. Gemini Pro se concentre actuellement sur le traitement de textes, mais devrait bientôt être capable de travailler avec d'autres types de contenus[29]. De plus une suite qui compte trois modèles est annoncée :
- Gemini Nano : version allégée de Gemini est prévue pour tourner nativement et hors-ligne sur des smartphones Android en commençant par le Google Pixel 8 Pro et uniquement à partir de texte ;
- Gemini Pro : le modèle intermédiaire, remplacera LaMDA dans Bard pour les pays anglophones ;
- Gemini Ultra (qui ne sera finalement lancé qu'en ) : le modèle le plus avancé, et le plus performant.
Si Google DeepMind ne précise pas les tailles des modèles, l'accent est mis sur les performances du plus puissant (Gemini Ultra) par rapport à GPT-4[30] d'OpenAI, qui est alors de loin le modèle le plus puissant du marché.
Il est annoncé aussi que Gemini Pro sera disponible pour les développeurs via le Google Generative AI Studio ou Vertex AI sur Google Cloud le et que Gemini Ultra sera proposée aux Data Centers et aux entreprises, d'abord en version beta contrôlée et dans un contexte expérimental sécurisée.
Gemini
Le , Google a annoncé renommer Bard en Gemini afin de refléter l'utilisation de la famille de modèles Gemini[31].
Le , Google lance une nouvelle version plus avancée nommée Gemini 1.5 Pro. C'est aussi le premier modèle capable de prendre jusqu'à 1 million de tokens en entrée, même si la limite est fixée à 128 000 tokens dans un premier temps.
Le même mois, Google suspend son outil de création d'images Gemini, « pensé pour promouvoir la diversité », après qu'il a généré des résultats embarrassants, refusant dans certains cas de représenter des personnes blanches ou générant des images historiquement fausses, telles que « des soldats nazis de couleur » ou le « pape imaginé en femme ». Des polémiques en série, dont l'une liée à l'affirmation de Gemini selon laquelle il serait « difficile de dire » qui de Hitler ou d’Elon Musk avait eu l’impact le plus négatif sur la société, poussent Sundar Pichai, le PDG de Google, à recadrer ses équipes. Il leur rappelle le risque de briser la confiance envers les produits Google. Il déplore les réponses embarrassantes de Gemini qui « ont fait preuve de partialité »[32],[33]
En mai, une version allégée est lancée, nommée Gemini 1.5 Flash et capable d'accepter 1 million de tokens. Gemini 1.5 Pro bénéficie d'une amélioration à ce niveau, permettant d'utiliser jusqu'à 2 millions de tokens en entrée.
En , Google introduit les « Gems », qui permettent de créer des versions personnalisées de Gemini que les utilisateurs définissent en fonction de leurs besoins[34]. C'est une réponse au GPT Store de OpenAI ou au Copilot Studio de Microsoft, et l'un des nombreux efforts que déploie le groupe pour tenter d'attirer du public vers Gemini, alors que l'adoption des professionnels et développeurs restent très faible par rapport aux rivaux[35].
En mars 2025 Google annonce la sortie du modèle Gemini 2.5 (disponible en 3 versions : Pro, Flash et Flash-Lite), dont la déclinaison la plus puissante se retrouve directement en haut du classement de LMArena. Bénéficiant d'une fenêtre d'un million de token en entrée, le modèle domine encore actuellement les benchmarks scientifiques et mathématiques AIME et GPQA [36].
Remove ads
Références
Voir aussi
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads