La bataille de l’IA générative se joue aussi sur le terrain de l’image, et Google vient de dégainer une mise à jour qui risque de faire parler.
Avec Gemini 2.5 Flash Image, l’entreprise promet aux utilisateurs un contrôle bien plus fin sur l’édition de photos par commandes en langage naturel. Traduction : changer la couleur d’un t-shirt, retoucher un décor ou fusionner plusieurs images sans déformer les visages ni transformer votre chat en créature mutant.
Un pas de plus pour combler l’écart avec OpenAI, dont l’intégration de l’image dans ChatGPT a séduit des millions d’utilisateurs en quelques semaines.
Des retouches plus précises et plus naturelles
L’un des points faibles des modèles concurrents est bien connu : demander un petit détail et se retrouver avec une photo qui part complètement de travers. Google assure avoir résolu ce problème en travaillant sur la consistance visuelle, notamment pour les visages, les animaux et les objets complexes.
Testé en catimini sur la plateforme communautaire LMArena sous le pseudo “nano-banana”, le modèle a fait sensation avant que Google ne lève le voile. La filiale DeepMind parle d’un outil “state of the art”, capable de suivre les instructions avec beaucoup plus de précision et de fluidité que par le passé.
Concrètement, Gemini permet maintenant de réaliser des montages avancés : combiner un canapé avec une photo de salon et une palette de couleurs pour visualiser une déco, ajuster la lumière d’un jardin en fonction d’un projet ou retoucher un détail sans casser l’ensemble. Bref, des usages concrets qui dépassent la simple génération de mèmes.
Un marché ultra-concurrentiel où Google veut rattraper son retard
Derrière cette mise à jour, l’enjeu est stratégique. OpenAI a pris une longueur d’avance avec GPT-4o, qui a enflammé le web avec des créations virales (mention spéciale aux mèmes façon Studio Ghibli). Résultat : plus de 700 millions d’utilisateurs hebdomadaires pour ChatGPT, quand Gemini plafonne à 450 millions d’utilisateurs mensuels selon Sundar Pichai.
LIRE AUSSI : Meta va traduire vos vidéos avec l’IA et briser la barrière de la langue
Meta, de son côté, a annoncé un partenariat avec Midjourney pour renforcer ses propres outils visuels, tandis que la startup allemande Black Forest Labs impressionne avec ses modèles FLUX, considérés comme des références en benchmarks. Autant dire que Google ne pouvait plus rester spectateur.
Cette évolution de Gemini est donc autant une réponse à la concurrence qu’un moyen de séduire de nouveaux utilisateurs. Car à l’heure actuelle, l’écart de popularité entre Gemini et ChatGPT reste significatif.
La créativité encadrée : l’équilibre délicat de Google
Reste la question sensible : que peuvent réellement générer les utilisateurs ? Google a déjà eu des dérapages avec son IA, notamment des représentations historiques inexactes qui l’ont forcé à désactiver certaines fonctions. Avec Gemini 2.5 Flash Image, la firme promet avoir trouvé un meilleur équilibre entre liberté créative et sécurité.
Concrètement, des filigranes visuels et des balises de métadonnées sont ajoutés automatiquement pour identifier les images générées. Google interdit aussi la création de contenus explicites non consensuels, contrairement à certains concurrents plus laxistes comme Grok, qui a récemment suscité la polémique avec des deepfakes de célébrités.
Ces garde-fous suffiront-ils à freiner la prolifération des faux visuels ? Pas sûr. Car sur les réseaux sociaux, rares sont ceux qui prennent le temps de vérifier la provenance d’une image. Mais au moins, Google affiche une volonté claire : proposer un outil créatif puissant, sans tomber dans le “n’importe quoi”.
LIRE AUSSI : Google présente Genie 3, une IA capable de créer des mondes 3D interactifs en temps réel