Google Gemini : révolution dans le monde de l’intelligence artificielle ?

Le 6 décembre 2023

Par : David Eichholtzer

9 minutes

SEO

Partager sur :

Google Gemini : révolution dans le monde de l’intelligence artificielle ?

Annoncé en réaction à la sortie de ChatGPT, Gemini a généré une forte attente de la part de la communauté SEO. Puis Google a annoncé sa sortie ce mercredi 6 décembre. Une sortie attendue tant les annonces et les moyens déployés par Google ont été conséquents. Une sortie qui permettra de dépasser le trio ChatGPT-Bing-Microsoft à termes ?

Cet article résume les connaissances disponibles à ce jour sur Gemini. Il sera régulièrement mis à jour à mesure que Google dévoilera de nouveaux éléments.

Gemini AI, qu’est ce que c’est ?

Google Gemini, ou Gemini AI, est une suite intégrée de grands modèles linguistiques (LLM), actuellement développée par Google AI. Selon Sundar Pichai, PDG de Google, les modèles de base de Gemini ont été conçus dès le départ pour être multimodaux. Il s’agit probablement d’un modèle Visual-Language-Action (VLA) sur lequel les équipes IA de DeepMind (à l’origine de Alpha Go), travaillent déjà. 

Cela signifie que les utilisateurs pourront traiter et générer du texte, des images (illustrations, vidéos), du code et du contenu audio via une seule interface utilisateur (UI). Gemini serait un acronyme qui signifierait “Generalized Multimodal Intelligence Network” mais cette information n’a pas pu être confirmée.

Nous avons donc demandé de l’aide à Google Bard. Selon ce dernier, il est plus probable que les développeurs de Google l’aient nommé ainsi d’après la constellation du Gémeaux et le mythe grec antique de Castor et Pollux, tout un programme.

Gemini AI est actuellement testé en version bêta par un groupe de développeurs sélectionnés, dans un petit nombre d’entreprises. Il est prévu que Gemini remplace PaLM 2, le LLM qui alimente actuellement Google Bard.

Genèse du projet Gemini

Gemini se compose d’un groupe de grands modèles d’IA plutôt que d’un seul LLM. Il a été conçu pour surpasser les capacités des modèles de langage existants, GPT-3, y compris celles de GPT-4. C’est donc en réponse directe à ChatGPT4 que Google a fusionné les équipes de Google Brain et DeepMind, pour accélérer ses recherches et tenter de rattraper son retard sur le duo OpenAI et Microsoft.

Objectif et mission

Gemini AI est multimodal et vise en particulier à améliorer les fonctionnalités de ses produits phares, en tête desquelles, son assistant Bard mais aussi ceux embarqués dans sa suite d’outils à destination des entreprises Google Workspace (Google Docs, Google Slides, etc.) afin de concurrencer Microsoft. À noter que les développeurs devront payer l’accès à l’application Gemini AI via sa division Google Cloud/Vertex. Parallèlement, Google Translate, Google Photos, Google Assistant, Google Maps, YouTube et bien sûr Google Search bénéficieront également des avancées de Gemini. L’une des promesses phare de Google serait de proposer un outil relativement sobre en ressources, ce qui est fidèle à son positionnement, puisque « Google se positionne comme le plus grand acheteur professionnel d’énergies renouvelables par an« .

Comment fonctionne Google Gemini ?

Jeffrey Dean, qui co-dirige Google AI, a déclaré que Gemini était l’une des « nouvelles générations de solutions multimodales”. Concrètement, il faut voir Gemini comme l’aboutissement d’un réseau de modèles complémentaires, qui lui permettent à la fois d’être multimodal (répondre par le texte, l’image, la vidéo, l’audio, le code, la 3D, des graphiques) et donc de gérer plusieurs requêtes simultanément, sans se limiter. De la même manière que les humains utilisent différents sens dans le monde réel. Pour ce faire, Gemini utiliserait la nouvelle infrastructure d’IA nommée Pathways.

Selon Techopédia, Google s’appuierait fortement sur l’apprentissage par renforcement avec retour humain (RLHF) pour former les modules Gemini sur des puces Cloud TPU v5e. A titre de comparaison, la puissance de calcul de ces puces serait cinq fois supérieure à celle des puces utilisées pour entraîner Chat GPT.

Une rangée de supercalculateurs accélérateurs d’IA Cloud TPU v5p dans un centre de données Google. 
Image : Google

Pour Sundar Pichai, directeur général de Google, «cette nouvelle ère de modèles représente l’un des plus grands efforts scientifiques et techniques que nous ayons entrepris depuis la création de Google». Rien que ça.

L’importance du « mécanisme d’attention »

Le point particulièrement intéressant concernant Gemini, c’est qu’il intégrerait des mécanismes d’attention (MA) perfectionnés, permettant aux réseaux de neurones artificiels de « concentrer » leurs calculs sur les parties les plus pertinentes des « données d’entrée », pour ensuite générer des « sorties » plus cohérentes, afin de répondre plus fidèlement aux requêtes ou « invites » des utilisateurs.

Selon Wikipédia la notion de mécanisme d’attention désigne des techniques, basées sur des mécanismes mathématiques et informatiques applicables aux réseaux de neurones artificiels, visant à rendre les modèles d’IA plus performants. Elles fonctionnent en pondérant l’importance des différentes caractéristiques d' »entrée », de manière à ensuite pouvoir concentrer l’analyse sur les caractéristiques les plus pertinentes sur le moment (c’est-à-dire en fonction de la tâche à accomplir et de la demande). Le but : aboutir à un traitement plus rapide, plus efficace (économie de ressources sur le traitement de l’information) et plus précis des données complexes, y compris à grande échelle.

Le mécanisme d’attention, « bio inspiré » du fonctionnement des cerveaux animaux et humains, joue un rôle majeur dans les progrès récents des modèles d’apprentissage profond (par exemple en termes de traduction fluide et automatique ou de description automatique d’images et de développement de nouveaux modèles de pointe) tels que l’architecture « Transformer » (créée par Google Brain en 2017). Pour ce cas, on parle d’un modèle auto-attentif, aussi dit d’apprentissage profond, capable de détecter et analyser certains indicateurs de sentiments et d’émotions avec une fiabilité croissante, donnant à l’utilisateur l’impression que l’IA comprend nos émotions, qu’elle les prend en compte et qu’elle répond avec empathie.

Par exemple, le mécanisme d’attention permet à l’IA de se concentrer sur des zones spécifiques d’une image pour générer des descriptions de plus en plus pertinentes et cohérentes en se focalisant sur des objets, personnes, détails importants ou sur les actions visibles dans l’image. Ce mécanisme permet de transcrire avec plus de précision et de rapidité un signal audio en texte, en tenant mieux compte du contexte et de la prononciation. Il améliore de fait la compression, le filtrage ou la restauration de signaux audio ou vidéo, en se basant sur les caractéristiques les plus importantes du signal.

Gemini combine encodeurs et décodeurs multimodaux

Au cœur de la puissance de Gemini réside son architecture unique, combinant encodeurs et décodeurs multimodaux.

💡 Encodeurs et décodeurs multimodaux, pour quoi faire ?

Imaginez que Gemini soit comme un système super intelligent que vous pouvez utiliser pour améliorer votre entreprise. Au cœur de cette technologie, il y a deux parties importantes : l’encodeur et le décodeur. L’encodeur, c’est un peu comme le traducteur universel de Gemini. Il prend différentes sortes d’informations de votre entreprise, les organise et les prépare pour que la machine puisse les comprendre. C’est comme s’il créait une sorte de langage commun pour que toutes les données puissent être utilisées ensemble de manière fluide. Ensuite, il y a le décodeur. Le décodeur prend ce langage spécial créé par l’encodeur et génère des choses utiles pour votre entreprise. Par exemple, il peut produire des informations sous différentes formes, comme des rapports, des graphiques ou d’autres types de données importantes. C’est un peu comme s’il transformait les informations en résultats concrets pour vous. Ce qui rend Gemini particulièrement puissant, c’est sa capacité à comprendre différents types d’informations et à les transformer en résultats pertinents pour votre entreprise. C’est comme si vous aviez un assistant intelligent qui peut traiter toutes les données de votre entreprise et les convertir en actions concrètes. C’est ce qui fait de Gemini (en tout cas c’est la promesse) une solution unique et performante pour l’intelligence artificielle.

Ce qui distingue également Gemini AI, c’est sa capacité à évoluer et à s’adapter au fur et à mesure de sa progression, réduisant ainsi sa dépendance aux données d’entraînement originales. Gemini promet ainsi de fournir des résultats d’un nouveau genre et tout bonnement révolutionnaires.

Comment ? En utilisant la planification, ainsi que la mémoire pour vérifier ses sources (en utilisant la recherche Google) afin d’améliorer l’apprentissage par renforcement et réduire le contenu halluciné.

Comment pourra-t-on utiliser Gemini ?

Selon Sissie Hsiao, Gemini sera intégré à Bard, celui-ci étant fusionné avec Assistant. Le tout restera donc pilotable par la voix, le texte, l’image et disponible sur mobile évidemment. Bard – qui signifie Building AutoML with Reinforcement Learning – restera un produit disponible de façon autonome mais aussi intégré aux produits Google.

La capacité de Gemini à combiner des visuels et du texte devrait donc lui permettre de générer plusieurs types de données en même temps. C’est à dire qu’il pourrait écrire le contenu d’un magazine mais également en concevoir la mise en page et les graphiques ou encore synthétiser un journal ou un podcast entier en fonction des sujets qui vous intéressent le plus.

En ce sens, Gemini se rapproche d’une intelligence artificielle générale (IAG), en tout cas un peu plus que GPT-4, selon Sissie Hsiao, Google’s VP and general manager of Bard and Google Assistant. Et cela en le traduisant en plusieurs langues !

Duet AI comme interface frontale pour les développeurs

Il est prévu que Google utilise Duet AI comme interface frontale pour Gemini. Cette interface conviviale masquera les complexités de l’architecture Gemini et permettra à des personnes ayant différents niveaux de compétences (en particulier les développeurs) d’utiliser les modèles Gemini à des fins d’IA générative.

Déclinaisons de Gemini AI

L’accent sera mis sur la personnalisation. Dans un premier temps, Google se concentrera sur le développement d’un produit multifonctionnel produisant des images et du texte. Cependant, à terme, vous pourrez peut-être utiliser la même solution pour analyser des organigrammes, contrôler des logiciels ou créer du code. Utilisée conjointement avec les outils de productivité et de communication de Google, la solution a également le potentiel d’améliorer considérablement l’efficacité et la créativité des employés.

Zoubin Ghahramani, vice-président de Google DeepMind, a déclaré que Gemini serait disponible dans les quatre mêmes tailles que PaLM 2, à savoir Gecko, Otter, Bison et Licorne :

  • Gecko devrait être léger et idéal pour une utilisation sur les appareils mobiles.
  • Otter est conçu pour être plus puissant que Gecko. Il devrait convenir à un large éventail de tâches unimodales.
  • Bison est conçu pour être plus grand et plus polyvalent que Otter. Il est susceptible de convenir à un nombre limité de tâches multimodales et devrait concurrencer avec Chat GPT-4 pour la part de marché.
  • La Licorne est conçue pour être la taille Gemini la plus grande, la plus puissante et la plus polyvalente. Il devrait être adapté à un large éventail de tâches multimodales et aller bien au-delà des capacités de Chat GPT ou de l’un de ses concurrents.

Applications et perspectives

Les applications potentielles de Google Gemini sont vastes et variées :

  • Traitement linguistique amélioré : Les capacités avancées de traitement du langage de Gemini pourraient révolutionner la façon dont les humains interagissent avec les machines. Cela pourrait permettre des conversations plus naturelles et plus fluides entre les humains et les systèmes d’IA, transformant ainsi notre façon de travailler et de vivre.
  • Efficacité améliorée : En automatisant des tâches qui nécessiteraient autrement une intervention humaine, Gemini pourrait améliorer considérablement l’efficacité dans divers secteurs, tels que le service client, la santé, la finance et l’éducation.
  • Progrès médicaux : Grâce à sa capacité à traiter de grandes quantités de données rapidement et avec précision, Gemini pourrait aider les professionnels de la santé à diagnostiquer des maladies, à élaborer des plans de traitement personnalisés et même à prédire les risques pour la santé.
  • Résultats créatifs : Le potentiel créatif de Gemini est immense, car il peut générer des textes nouveaux, des histoires et même des textes entiers ainsi que les illustrations associées.

À propos de la génération des images

Gemini utilise les Réseaux Antagonistes Génératifs (GAN), un cadre puissant composé de deux réseaux neuronaux concurrents : un générateur et un discriminateur. Le générateur apprend à produire des images réalistes, tandis que le discriminateur vise à distinguer les images réelles des images générées. Cette interaction conduit à la création d’images de plus en plus réalistes et visuellement attrayantes :

  • Synthèse d’images haute fidélité : Gemini met fortement l’accent sur la production d’images haute fidélité, garantissant que le contenu généré possède des détails complexes, une netteté et des textures réalistes. Cela le rend adapté à un large éventail d’applications, telles que les environnements virtuels, la conception graphique et la création de contenu.
  • Diversité et nouveauté : Le processus de formation de Gemini encourage la génération d’images diverses et nouvelles, empêchant le modèle de produire des résultats répétitifs ou similaires. Cette fonctionnalité le rend particulièrement précieux dans les domaines créatifs, où un contenu visuel unique et nouveau est très recherché.
  • Contrôle précis : Gemini offre un contrôle précis sur les images générées, permettant aux utilisateurs de manipuler des attributs spécifiques tels que les jeux de couleurs, l’apparence des objets ou même de combiner des éléments de plusieurs sources. Cette flexibilité permet aux artistes et aux designers d’obtenir les résultats visuels souhaités.

Gemini VS ChatGPT

GPT-4 posséderait 1 760 milliards de paramètres et peut comprendre et générer du langage naturel. Cela le rend exceptionnellement puissant pour les tâches de données texte (GPT-4 accepte également les images en données d’entrée). Cependant Gemini, avec son réseau d’intelligences multimodales peut gérer simultanément différents types de données et de tâches, en traitant du texte, des images, de l’audio, de la vidéo, des modèles 3D et des graphiques.

Le mercredi 6 décembre 2023, Google annonce que Gemini Ultra surpasse GPT-4 dans 30 des 32 référentiels académiques utilisés dans la recherche et le développement des LLM. Cela signifie que Gemini est plus polyvalent que GPT-4. De plus, il convient de noter que l’accès étendu de Google à une vaste gamme de données de formation exclusives, garantit que l’entreprise peut continuer à améliorer son service à l’avenir. Gemini pourrait également traiter les données de divers services, notamment la recherche Google, Google Books, YouTube et Google Scholar.

Comment l’utilisateur accédera à l’information avec Gemini ?

Nous avons simulé une conversation entre un utilisateur et Google Bard alimenté par le modèle de langage multimodal Gemini, pour imaginer comment les capacités multimodales de Gemini pourraient enrichir une conversation avec un assistant et comment cela pourrait s’interfacer avec les données de l’entreprise pour faire aboutir la conversation à un acte comme une conversion en ligne, le tout, sans sortir de l’assistant.

Bien sûr, il s’agit d’une vue de l’esprit, une interprétation libre, sans doute assez éloignée de ce que sera Gemini AI dans sa version finale.

Quand Gemini sera disponible ?

La date de sortie et les capacités finales de Gemini AI sont encore inconnues. Selon 01Net, Google s’apprêtait à annoncer son lancement début décembre 2023 mais Gemini rencontrerait encore des soucis pour répondre en langue étrangère, ce qui a poussé son PDG, Sundar Pichaï à reporter l’événement (tenu secret jusque là).

Toutefois, mercredi 6 décembre, à la surprise générale, Google a dévoilé à quelques journalistes, les premières informations sur Gemini (rapportées par Axios.com),

  • Gemini sera disponible en trois versions : une version Ultra pour les tâches les plus exigeantes, une version Pro adaptée à un large éventail de tâches et une version Nano, version qui peut s’exécuter directement sur les appareils mobiles, en l’occurrence le Google Pixel 8 pro
  • Il prévoit également une version haut de gamme de Bard, Bard Advanced, qui offrira un accès aux « meilleurs modèles et fonctionnalités de Google, à commencer par Gemini Ultra »
  • Les développeurs et les entreprises clientes auront accès à Gemini Pro via l’API Gemini dans Google AI Studio ou Google Cloud Vertex IA, dès le 13 décembre prochain,
  • Google déploie Gemini par étapes. À partir du 6 décembre, Bard utilisera une version optimisée de Gemini Pro.

Ce qui est certain, c’est que Gemini marque une avancée audacieuse dans le domaine de l’intelligence artificielle, illustrant l’engagement de Google à jouer un rôle prépondérant dans ce domaine. Alors que nous anticipons ses débuts publics avec impatience, Gemini nous rappelle que la compétition dans le domaine de l’IA est loin d’être achevée, laissant présager un avenir riche en innovations qui pourraient redéfinir notre monde d’une manière que nous ne pouvons encore qu’imaginer.