Google dévoile son arme secrète contre ChatGPT

Image GPT 5

Contexte

Google et OpenAI visent le même cap: des assistants “en direct” qui comprennent la voix, voient ce que tu montres (appareil photo, écran) et répondent tout de suite.

Adobe adapte ses outils de création à cette nouvelle donne, la robotique humanoïde progresse, et une étude de Stanford observe déjà des effets sur l’emploi des jeunes. En annexe, vous trouverez un véritable Powerpoint, et en français, s'il vous plait, à propos de cette vidéo et de mon article.

Faits confirmés

Google Translate passe à la traduction en direct: vous pouvez parler dans votre langue et entendre/voir immédiatement la traduction dans celle de votre interlocuteur (plus de 70 langues, déploiement en cours sur Android et iOS). L’application gère les pauses, accents et intonations pour une conversation naturelle.
OpenAI met en service ses “agents vocaux”: une nouvelle interface pour parler avec une IA au téléphone ou sur le web avec un délai minimal. Elle peut même se connecter au réseau téléphonique (SIP = standard pour relier l’IA aux appels) et comprendre des images envoyées.
NotebookLM s’ouvre au français: l’outil de Google peut générer des résumés audio et des vidéos explicatives dans 80 langues à partir de vos documents (PDF, notes, etc.). Pratique pour créer des présentations pédagogiques rapidement.
Adobe privilégie les “meilleurs modèles disponibles”: au lieu de s’appuyer seulement sur son propre moteur, la suite Firefly peut utiliser des modèles d’IA externes (ce qui compte devient le résultat, les droits d’usage et la sécurité, plus que le “nom” du modèle).

Points à nuancer

“Nano Banana dans Photoshop”: Nano Banana existe bien comme outil d’édition d’images par IA, mais son intégration directe dans Photoshop n’est pas confirmée. Adobe a annoncé l’ouverture à des modèles externes, sans valider celui‑ci en particulier.
Robot ping‑pong “autonome”: les démonstrations (Unitree) sont impressionnantes et montrent une vraie accélération. Certes, des caméras assistent les robots, mais l'important est l'accélération incroyable des réactions des robots, dans un sport où les réflexes sont prédominants.

Tendances qui se dessinent

L’assistant “live” devient l’interface par défaut: on parle, on montre, et l’IA répond tout de suite. “Multimodal” signifie simplement voix + images + contexte des applis, le tout ensemble.
Les suites créatives deviennent des “plateformes”: on orchestre différents modèles d’IA selon le besoin (qualité, coût, droits). L’utilisateur choisit un écosystème fiable plutôt qu’un logo de modèle.
Robotique: les compétitions structurent les progrès (vision, décision, contrôle). La Chine avance vite; on peut s’attendre à des usages en logistique et services.
Emploi: les postes juniors des métiers exposés à l’IA reculent, tandis que les profils plus expérimentés résistent ou progressent, surtout quand l’IA “augmente” le travail au lieu de le remplacer. Voir la note en bas de page.

Impacts pratiques

Pour le quotidien et le support client: la traduction en direct et la voix IA vont se généraliser (voyages, accueil, centres d’appels). À prévoir: intégration technique (raccorder l’IA au téléphone et au logiciel client), information claire (“vous parlez à une IA”) et supervision humaine.
Pour la création de contenus: avec des outils plus “ouverts”, on choisit selon les droits, la sécurité, l’ergonomie et le coût. Les résumés audio/vidéo et des voix plus naturelles vont accélérer la production, mais il faudra garder des règles de vérification.
Pour les carrières: côté juniors, la valeur se déplace vers l’assemblage de solutions (faire “appeler des fonctions” = demander à l’IA d’exécuter des actions concrètes), le travail avec les données et le contrôle qualité. Côté seniors, l’IA démultiplie la productivité et la responsabilité.

À retenir 

Le “temps réel” est devenu une norme: on parle, on montre et l’IA agit.
Les grands outils se transforment en plateformes d’orchestration.
L'impact sur l'emploi touche d’abord les débuts de carrière; la clé est d’apprendre à concevoir, piloter et vérifier les systèmes, pas seulement à exécuter des tâches répétitives.

Addendum

— Mise à jour NotebookLM —

NotebookLM peut désormais générer des présentations “type PowerPoint” en français à partir de vos documents (notes, PDFs, images). Pratique pour illustrer un article, un cours ou un brief sans y passer des heures: vous sélectionnez les sources, vous choisissez la langue, et vous récupérez des diapositives structurées avec texte et visuels. Regardez le PowerPoint en français réalisé par NotebookLM, c'est très étonnant.

— Glossaire express —

Assistant “live” (ou en direct): un assistant qui vous répond tout de suite à l’oral, peut voir ce que vous montrez (appareil photo, capture d’écran) et agir dans tes applications.

Multimodal: l’IA comprend plusieurs “modes” à la fois: la voix, le texte, les images, parfois la vidéo.

SIP (téléphonie): un standard qui permet de relier une IA au réseau téléphonique pour passer/recevoir des appels.

Agent vocal: une application qui vous parle et vous écoute, connectée à des données ou à des outils (ex. agenda, CRM) pour faire des actions.

Function calling (appel de fonction): demander à l’IA d’exécuter une action concrète (ex.: “crée un rendez-vous”, “envoie un email”) plutôt que de juste répondre en texte.

Orchestrer des modèles: choisir le “bon” modèle d’IA au bon moment (qualité, coût, droits d’usage) au sein d’un même outil. Gemini (Google): la famille de modèles d’IA utilisée dans Translate, Gemini Live, NotebookLM, etc.

Realtime API (OpenAI): l’interface pour créer des agents vocaux “temps réel” (latence faible, voix naturelle, connexion téléphonique).

NotebookLM (Google): outil pour résumer et expliquer tes propres sources, avec exports audio/vidéo et présentations en plusieurs langues.

Firefly (Adobe): la suite d’IA créative d’Adobe; elle peut s’appuyer sur plusieurs modèles d’IA (y compris externes) au sein de Photoshop et consorts.

Sources:

Annonce Google Translate: traduction en direct et pratique de langues; détails de déploiement. ⁠https://blog.google/products/translate/language-learning-live-translate/
OpenAI Realtime API et modèle gpt‑realtime (SIP, image input, voix naturelles); cas d’usage T‑Mobile. ⁠https://openai.com/index/introducing-gpt-realtime
Gemini Live: intégrations apps Google, guidance visuelle, amélioration de la voix. ⁠https://blog.google/products/gemini/gemini-live-updates-august-2025/
NotebookLM: Audio/Video Overviews en 80 langues, y compris le français. ⁠https://blog.google/technology/google-labs/notebook-lm-audio-video-overviews-more-languages-longer-content/
Couverture TechCrunch de l’extension des Video Overviews. ⁠https://techcrunch.com/2025/08/25/notebooklms-video-overview-feature-now-supports-80-languages/
Adobe Firefly: intégration de modèles OpenAI et Google (stratégie plateforme). ⁠https://www.reuters.com/business/adobe-adds-ai-models-openai-google-its-firefly-app-2025-04-24/
Robotique humanoïde: performances Unitree et World Humanoid Robot Games. ⁠https://www.bloomberg.com/news/features/2025-08-16/unitree-robotics-china-s-top-rival-to-tesla-bot-headlines-humanoid-robot-games jusqu'au bout
Marché du travail et IA: “Canaries in the Coal Mine?” (Stanford Digital Economy Lab). ⁠https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/
Synthèse presse des résultats de l’étude Stanford. ⁠https://time.com/7312205/ai-jobs-stanford/
Fiche Nano Banana (outil d’édition d’images IA). ⁠https://nanobanana.ai/
Article de blog mentionnant “Nano Banana” et confusion de dénomination. ⁠https://medium.com/the-generator/i-tested-googles-new-nano-banana-image-ai-and-it-s-insane-826d23f7f9a7

N.B  :  
   
  L'article sur le marché du travail et l’IA ainsi que sa synthèse presse feront l’objet d’un prochain article sur ce site.

Google dévoile son arme secrète contre ChatGPT

Contexte

Faits confirmés

Tendances qui se dessinent

Impacts pratiques

Addendum

— Glossaire express —

Sources:

Avec Gemini et Nano Banana 3.0 Google a plié le game ! - 01/12/2025

Billet d'humeur : pourquoi je n'ai jamais voulu apprendre à "prompter" (et j'avais raison). - 30/11/2025

Guide Ultime de Google NotebookLM (novembre 2025) - 25/11/2025

Tutoriel : Découvrir et maîtriser Nano Banana Pro - 24/11/2025

Révolution IA : Pourquoi votre prochain Chatbot Personnel ne Coûtera Plus 3000 €, mais Moins de 250 € ! - 22/11/2025

Arrêtez de payer pour les I.A ! - 20/11/2025

L'Intelligence Artificielle à l'École : Révolution Pédagogique ou Boîte de Pandore ? - 05/11/2025

OpenAI Academy : des Formations Gratuites pour Apprivoiser l'Intelligence Artificielle - 03/11/2025

Atlas, d'OpenAI, un navigateur qui réfléchit à votre place ? - 30/10/2025

ChatGPT para principiantes - 26/10/2025

Comet : le navigateur-assistant qui veut remplacer Chrome — Tutoriel - 22/10/2025

14 Super IA Gratuites : Vous n'en croirez pas vos yeux (ni vos oreilles !) - 16/10/2025

Comment maîtriser Perplexity ? - 10/10/2025

Guide d'utilisation de Skywork : une I.A qui crée tous vos documents complexes en un clic - 26/09/2025

Rapport sur l'indice économique Anthropic : adoption inégale de l'IA selon les régions et les entreprises - 16/09/2025

Pour éviter la limite d'invite de Google Gemini - 15/09/2025

3 astuces folles pour rendre Gemini plus fiable, plus précis et plus puissant (Tuto Complet) - 13/09/2025

Comet vs Dia : duel des nouveaux navigateurs boostés à intelligence artificielle - 12/09/2025

Nano Banana : Le Tuto COMPLET (validé par Google !) - 12/09/2025

Gemini gère enfin vos fichiers audio ! - 12/09/2025