Numéro de la semaine du 18 au 24 mai 2026
Salut les explorateurs de l’IA !
Une quinzaine qui a commencé par une déflagration politique le 12 mai : Arthur Mensch (CEO Mistral) est passé devant la commission d’enquête de l’Assemblée nationale et a lâché une phrase qui a fait tiquer toute la profession, « Aujourd’hui, les ingénieurs chez Mistral n’écrivent plus de lignes de code ». Puis Google a frappé fort le 19 mai à l’I/O en sortant Omni Flash (vidéo générative avec audio synchrone à 8 dollars par mois) et Gemini 3.5 Flash, 4 fois plus rapide en coding. Et entre les deux, Karpathy a discrètement quitté son lab Eureka pour rejoindre l’équipe pre-training d’Anthropic, le même jour où KPMG annonçait déployer Claude chez 276 000 personnes.
Beaucoup de courants contraires sur la même vague. Comme promis dans le live d’hier soir, je creuse aujourd’hui l’audition Mensch (verbatim à l’appui), le paper sur la mémoire long terme des agents (vous étiez plusieurs à me demander de détailler) et la bascule de gravité côté Anthropic. C’est parti.
🇫🇷 Arthur Mensch à l’Assemblée : la première fois qu’un patron de modèle de langue européen parle vrai en politique
Le 12 mai, Arthur Mensch, cofondateur et CEO de Mistral AI (rappelons-le, le seul acteur européen majeur sur les modèles de langue généralistes), a été auditionné par la commission d’enquête de l’Assemblée nationale sur « les dépendances structurelles et les vulnérabilités systémiques dans le secteur du numérique ». Une heure quarante d’audition, peu de députés dans la salle (peu de buzz médiatique sur le coup) mais des phrases qui claquent à l’oreille de tout dirigeant lucide.
Ce qu’il faut retenir : - Citation verbatim : « On est dans une situation où vous avez quand même certains métiers qui disparaissent presque. Aujourd’hui, les ingénieurs chez Mistral n’écrivent plus de lignes de code. » Pas une provocation, un constat factuel sur ses propres équipes. - Le chiffre central : « 10 % de la masse salariale de l’Europe, c’est à peu près un trilliard. » Mensch parle là du coût des services numériques que les entreprises européennes vont consommer d’ici 3-4 ans, dont l’essentiel sera de l’IA. Soit environ 1 000 milliards d’euros, par an, à terme. - L’angle souveraineté reformulé : « Il faut arrêter de penser à la souveraineté comme un isolationnisme. Il faut y penser comme un sujet de levier. » Dans un monde où vous importez 100 % de vos services numériques des États-Unis, vous n’avez aucune marge de négociation. Si vous en produisez une partie, vous en avez. - Sur le modèle économique : « On transforme de l’énergie en intelligence. » Mensch défend la thèse que l’IA est une commodité énergétique, à traiter comme l’électricité, pas comme un logiciel. - Mistral en chiffres : 1 000 collaborateurs, valorisation 12 milliards d’euros, 1 milliard d’euros de revenus visés en 2026, 70 % du chiffre d’affaires hors de France.
Ce que ça raconte vraiment : la phrase choc sur les ingénieurs n’est pas un coup de com. Mensch défend une stratégie d’État. Il dit aux députés, en substance : « Si vous ne soutenez pas l’infrastructure compute européenne maintenant, dans 3-4 ans, vous aurez un trilliard d’euros par an qui partiront en R&D américaine au lieu d’être réinvestis en Europe, et vous le verrez sur votre déficit commercial. » Le calcul est froid mais cohérent, et la salle (quasi vide) a fait peu de cas du moment. C’est l’inverse de la communication habituelle des patrons tech français, qui restent prudents pour ne pas inquiéter le grand public. Lui, il a choisi l’alarme.
Pour nous, ça change quoi ? Trois choses concrètes. D’abord, si vous avez des équipes tech, le « les ingénieurs n’écrivent plus de code » est officiellement assumé par le patron du seul lab européen sérieux : ce n’est plus un débat. Ensuite, sur les 3-4 prochaines années, le poste IA va commencer à apparaître dans les arbitrages budgétaires des entreprises au même titre que l’électricité ou le téléphone. À vous de structurer ces choix maintenant (négociation contrats, choix souverains type Mistral, mesure du ROI réel). Enfin, le mot « souveraineté » va changer de sens en B2B : ce n’est plus un argument cocorico, c’est un critère de bilan.
Sources : vidéo officielle Assemblée nationale du 12 mai (1h40, je vous recommande chaudement de regarder les 15 premières minutes du propos liminaire) · synthèse LCP.
🎬 Google sort Omni Flash, Gemini 3.5 Flash et Antigravity : la même journée, trois fronts ouverts
Le 19 mai, journée Google I/O, l’équipe DeepMind a déposé sur la table trois annonces qui se renforcent l’une l’autre :
Gemini Omni Flash, c’est le premier modèle « Omni » de Google. Input multi-modal (texte, image, audio, vidéo), output vidéo cohérente de 10 secondes avec audio synchrone, génération et édition par conversation en langage naturel. Disponible immédiatement dans l’app Gemini, Google Flow, YouTube Shorts et YouTube Create. Gratuit sur Shorts et Create, 7,99 $ par mois sur Gemini AI Plus, watermark SynthID intégré par défaut. Quelques démos virales qui ont tourné cette semaine (et que je m’étais promis de vous mettre en lien) :
Bille de verre dans une chaîne de Rube Goldberg, avec physique réaliste : la bille rebondit, traverse, fait tomber des dominos sur 10 secondes sans glitch flagrant.
Mona Lisa zoom atomique : zoom continu de cohérence longue durée, impossible avec Sora preview il y a 18 mois.
Breakdown officiel GoogleAI sur ce que le modèle sait vraiment faire.
Tweet d’annonce GoogleDeepMind, 1,2 million de vues.
Gemini 3.5 Flash, c’est l’autre annonce du même jour. Modèle agentic et coding, revendiqué 4 fois plus rapide que les autres frontier sur le coding (benchmarks internes face à GPT-5.5 et Claude Sonnet 4.5). Pour l’avoir testé, il est en effet extrêmement rapide. Pas le plus puissant en absolu (un Claude Opus 4.7 reste meilleur sur les raisonnements complexes), mais le rapport rapidité-qualité est imbattable pour les tâches répétitives. Disponible dans Gemini App (attention, par défaut Google met le compte gratuit sur Flash Lite qui tourne encore sur Gemini 3.1, pas 3.5, économies internes obligent).
Antigravity 2.0, c’est la troisième jambe : l’IDE et le CLI dédiés aux développeurs qui veulent utiliser Gemini 3.5 Flash en mode agentic. Quatre surfaces (desktop app, CLI, IDE, SDK) sur un même moteur agent. Si vous utilisez encore Gemini CLI gratuit ou Google AI Pro/Ultra, vous avez jusqu’au 18 juin pour migrer vers Antigravity CLI.
Pour nous, ça change quoi ? Sur la vidéo : si vous faites du marketing, du contenu, de la formation interne, votre coût de production vidéo vient d’être divisé par 100. Le critère qualité bouge, ce n’est plus « qu’on me fasse une vidéo » mais « qu’on me fasse une bonne idée de vidéo », le scénario reprend la valeur. Sur le coding : un test à 30 minutes lundi matin sur votre stack avec Antigravity et Gemini 3.5 Flash en parallèle de Claude Code peut révéler des écarts de productivité brutaux côté latence.
Sources : Google Blog — Introducing Gemini Omni · Google Blog — Gemini 3.5 Flash · TechCrunch sur Antigravity 2.0.
🛠️ La pause pratique : ce que la démo Antigravity / Claude Code / Codex a vraiment révélé
J’ai testé les trois en live hier soir sur la même tâche bateau (« regarde ce site et fais-moi une présentation slide simple en quelques pages »), avec Claude Code en Opus 4.7, Codex en GPT-5.5 et Antigravity sur Gemini 3.5 Flash.
Précaution méthodo importante avant de lire la suite : le prompt était volontairement très ouvert, donc ce qui suit n’est pas un benchmark de qualité modèle au sens strict. Ce que ça révèle, c’est l’inclinaison de chaque agent : combien d’outils il décide d’utiliser en autonomie, jusqu’où il pousse le rendu, quelle direction stylistique il prend par défaut.
Ce que la démo a montré :
Antigravity (Gemini 3.5 Flash) est allé le plus loin en autonomie. Il a lancé un serveur local pour tester sa présentation sur une vraie page web, livrant un site abouti avec navigation, animations légères, et lisibilité graphique propre. Le modèle a clairement été incliné à se servir des outils à sa disposition.
Claude Code (Opus 4.7) et Codex (GPT-5.5) ont tous les deux pris une approche plus minimaliste. Une simple présentation PowerPoint passé en page HTML, peu d’utilisation des outils disponibles. La qualité du raisonnement et la structure étaient là, mais sans la mise en scène que Gemini a poussée.
Conclusion à manier avec précaution : sur un prompt très ouvert, Antigravity démontre une vraie tendance à exploiter son toolbox. Ça ne veut pas dire que c’est « le meilleur » sur tout. Ça veut dire que selon la nature de la tâche (proto rapide visuel vs. raisonnement profond sur code legacy), le bon choix de modèle change.
Mon retour terrain : en ce moment Claude Code reste pour moi la base, sur les missions client comme dans mes projets internes. Codex (GPT-5.5) en supplément, surtout pour le back, où il est très propre. Gemini 3.5 Flash via Antigravity pourrait être excellent à intégrer en front-end vu l’inclinaison de la démo et surtout il est extrêmement rapide. À creuser sérieusement dans les prochaines semaines, et je vous reviens là-dessus dans un prochain numéro.
🔍 Le sujet qu’on creuse : Karpathy traverse la Silicon Valley, et KPMG donne le ton
Andrej Karpathy, ce n’est pas n’importe qui. Cofondateur d’OpenAI, ex-directeur IA de Tesla, fondateur de son propre lab Eureka Labs ces 18 derniers mois. Le 19 mai, il a annoncé sur X qu’il mettait Eureka en pause et rejoignait l’équipe pre-training d’Anthropic. Mission affichée : utiliser Claude lui-même pour accélérer la recherche pre-training d’Anthropic, donc un projet d’auto-amélioration assistée.
Le même jour (à 24 heures près), KPMG, l’un des quatre grands cabinets d’audit mondiaux, annonce le déploiement de Claude chez ses 276 000 employés. C’est, à ma connaissance, le plus gros déploiement Claude enterprise officiellement annoncé à date.
Et la semaine d’avant, Anthropic avait racheté Stainless, la boîte qui produit ses SDK officiels en TypeScript, Python, Go et Java, signal stratégique fort sur la plateforme.
Trois signaux la même semaine, ce n’est pas un hasard. Anthropic empile méthodiquement :
Talent : Karpathy est le symbole de l’élite recherche IA. Son arrivée envoie un message à tous les chercheurs qui hésitent encore entre OpenAI, Google et Anthropic. Il valide publiquement la trajectoire scientifique.
Client enterprise : KPMG c’est 276 000 utilisateurs facturables, des dizaines de millions de dollars d’ACV (annual contract value), et surtout un canal de référence pour les Big 4 cabinets de conseil. Si KPMG est dessus, McKinsey, Deloitte et PwC vont devoir se positionner.
Plateforme : Stainless en interne, c’est la garantie que les SDK Anthropic restent leaders sur les agents (MCP, computer-use, etc.) face aux SDK OpenAI qui se font dépasser sur certains use cases.
Ce que ça change pour vous : ne regardez pas seulement « qui a le meilleur modèle ce mois-ci ». Le critère structurant pour un dirigeant en 2026, c’est aussi qui a l’équipe (et la pérennité du talent), qui a les clients enterprise qui valident la roadmap, qui a la plateforme et l’écosystème SDK qui dure. Sur ces axes, Anthropic vient d’envoyer un paquet de signaux convergents la même semaine. Pas la peine d’en faire un changement de stack précipité, mais ça vaut le coup de regarder les trois dimensions en parallèle du benchmark modèle quand vous arbitrez votre stack pour les 12 prochains mois.
Sources : Andrej Karpathy sur X · TechCrunch sur l’arrivée Karpathy chez Anthropic · Anthropic — KPMG deployment · Anthropic — acquisition Stainless.
🧠 Le papier de la semaine : LongMemEval-V2, ou pourquoi votre assistant IA repart à zéro tous les matins
Promis en live, je creuse le papier qui m’a marqué cette semaine. Publié le 12 mai sur arXiv par une équipe Cornell + Stanford + Anthropic, LongMemEval-V2 est un benchmark qui mesure, pour la première fois sérieusement, la mémoire long terme des agents IA.
L’idée simple : créer 451 questions qui testent 5 capacités mémoire d’un agent : rappel d’état statique (vos préférences, votre vocabulaire), suivi d’état dynamique (ce qui change au fil des semaines), connaissance des workflows (vos process internes), gestion des pièges environnementaux (les pièges récurrents qui ne sont jamais documentés), conscience des prémices (qu’est-ce qui a été décidé avant la conversation). Tout ça sur des trajectoires longues, jusqu’à 500 sessions et 115 millions de tokens par scénario.
Le résultat qui dérange : les meilleurs modèles du marché plafonnent autour de 50-60 % de réussite sur les questions multi-sessions. Un humain placé dans la même position (un collègue qui vous suit depuis 6 mois) tournerait autour de 90 % et plus. Soit un trou de 30 à 40 points entre la promesse marketing « notre IA se souvient de vous » et la réalité benchmark.
Pourquoi ça pourrait tout changer : aujourd’hui, votre assistant IA est en réalité un assistant nouveau chaque matin. Il connaît le monde, mais il ne vous connaît pas. La prochaine vague de produits IA ne sera pas « plus de paramètres », elle sera « plus de mémoire utile ». On parle là de plusieurs mois de souvenirs structurés (épisodique, procédurale, sémantique), pas de quelques milliers de tokens de contexte recopiés tels quels.
Mais attention aux risques : si demain votre Claude se souvient de tout, il se souvient aussi de vos brouillons de mail à votre n+1, des messages personnels, de la commande que vous avez voulu annuler, etc. La mémoire long terme va devenir le sujet RGPD numéro 1 de la couche application IA. Et probablement le sujet sécu numéro 1 dans 18 mois (exfiltrer la mémoire d’un agent corpo = exfiltrer la totalité de l’historique conversationnel d’un département).
La métaphore que je retiens : un Claude actuel, c’est un stagiaire brillant qui débute chaque jour. Il connaît tout, sauf vous. LongMemEval mesure précisément l’écart, pour que les éditeurs sachent où progresser. Si vous évaluez des éditeurs en ce moment, demandez-leur leur score LongMemEval-V2. La gêne dans la réponse vous dira beaucoup.
Précédent historique : on est en 2026 dans la même situation que les bases de données relationnelles en 1975. Le concept est posé, les benchmarks existent, mais aucun produit commercial ne fait encore le job sérieusement. Vers 1980-1985, Oracle et IBM transforment le marché. Pour la mémoire long terme IA, la fenêtre 2026-2028 va probablement faire de même, et l’éditeur qui gagne ce round captera l’essentiel de la couche assistant entreprise pour les 10 prochaines années.
🚀 En rafale, ce que le podcast n’a pas couvert (ou survolé trop vite)
Anthropic Glasswing trouve 10 000 vulnérabilités en un mois. Sur 50+ partenaires (Cloudflare, Mozilla, Microsoft, Oracle, Cisco, wolfSSL…), Claude a détecté 10 000+ vulnérabilités high ou critical en l’espace d’un mois. 6 202 dans 1 000+ projets open-source, dont 1 587 confirmées (90,6 % de vrais positifs, c’est très au-dessus des outils SAST classiques), 530 reportées aux mainteneurs, 75 patches déjà déployés. Sur Mozilla Firefox seul, 271 vulnérabilités trouvées, soit 10 fois plus que dans Firefox 148 avec un audit humain classique. Et une banque partenaire a vu un transfert frauduleux de 1,5 million de dollars détecté et bloqué par Claude Mythos Preview. Question à se poser ce week-end : qui audite mes dépendances open-source ? Source.
Mistral rachète Emmi AI pour faire l’IA industrielle. Emmi AI, basée à Linz en Autriche, est spécialisée dans la simulation physique (CFD, thermique, mécanique). Promesse : faire passer les simulations industrielles « de plusieurs heures à quelques secondes ». 30+ chercheurs intègrent les équipes Mistral, Linz devient le 7e bureau. À noter que le campus 1,4 GW de Paris-Sud annoncé par Mistral n’est pas encore opérationnel (construction H2 2026, premières phases 2027, plein rendement 2030). Le compute Mistral opérationnel aujourd’hui c’est Eclairion à Bruyères-le-Châtel, 44 MW, 13 800 GB300, en ligne depuis le printemps 2026. Source Usine Digitale.
Cursor Composer 2.5 = Kimi K2.5 chinois post-entraîné en RL massif. La news cachée de la semaine. Cursor a sorti Composer 2.5 qui matche les performances de Claude Opus 4.7 sur SWE-Bench Multilingual (79,8 %) pour environ 10 fois moins cher (0,50 $ par million de tokens en input, 2,50 $ en output). La presse a creusé et Cursor a confirmé : le modèle de base est Moonshot AI Kimi K2.5, un modèle open-source MIT, et 85 % du compute Cursor a été investi en post-training (RL, continued pretraining, feedback localisé). Signal stratégique : le frontier US se commoditise via base open-source chinoise post-entraînée intelligemment. L’argument anti-lock-in définitif. Source The Decoder.
Spotify + Universal Music signent le premier accord IA pour les covers d’artistes. Les fans peuvent désormais générer des covers IA d’artistes UMG avec consentement, avec un modèle de revenue-share artiste/UMG/Spotify. Premier cadre légal officiel d’usage commercial de la voix d’artistes, rupture nette avec le contentieux RIAA contre Suno et Udio. Pour tous ceux qui bossent dans la pub, le contenu de marque, les intros de formation, la voix IA d’artiste sous licence va devenir une option commerciale dans les prochains mois. Source Spotify Newsroom.
OpenAI lance sa propre filiale de conseil et rachète Tomoro. OpenAI Deployment Company, 4 milliards de dollars d’investissement initial, valorisée 14 milliards dès J1, co-investissements TPG, Bain Capital, Brookfield. Acquisition de Tomoro (cabinet conseil IA, Londres) pour absorber 150 Forward Deployed Engineers. Cible affichée : grands comptes Fortune 500 prêts à payer pour un commando OpenAI en interne, modèle calqué sur Palantir. OpenAI devient donc concurrent direct de McKinsey Digital, Accenture, Capgemini sur la transformation IA. Source OpenAI.
📊 Le chiffre de la semaine : 1 trilliard d’euros
C’est le chiffre lâché par Arthur Mensch devant les députés. « 10 % de la masse salariale de l’Europe, c’est à peu près un trilliard. » Une masse à laquelle, sur 3-4 ans selon Mensch, le coût de l’IA va converger pour chaque entreprise. Si l’Europe importe 100 % de cette dépense des États-Unis, elle ajoute 1 trilliard d’euros par an à son déficit commercial, et ce sont 1 trilliard d’euros qui partent en R&D ailleurs, qu’on ne récupère pas chez nous.
Pour situer : le PIB de la France était d’environ 2,9 trilliards d’euros en 2024. On parle donc d’une masse équivalente à un tiers du PIB français, par an, sur les services numériques européens. Et c’est dans la fourchette basse, Mensch précise qu’à long terme, un client achète une techno si elle ne prend pas plus de 50 % de la valeur produite. Donc le plafond théorique est bien supérieur.
Mensch n’invente pas ces chiffres pour faire peur. Il les sort pour donner un ordre de grandeur aux députés, qui jusque-là raisonnaient en millions de subventions. C’est tout l’objet de la commission d’enquête : aligner la politique sur la bonne unité de mesure.
🎧 Pour creuser le sujet
J’ai pris le temps de débuter le live d’hier soir par 4 minutes complètes sur l’audition Mensch, avec les citations qui claquent et le contexte de la commission. Si vous voulez l’entendre de vive voix, c’est dans le podcast cette semaine.
👉 Écouter l’épisode #128 sur Acast
🎟️ Atelier Récif, 10 juin 2026, Le Cirque (Paris)
J-15 avant l’Atelier Récif. Une demi-journée dense en présentiel au Cirque (Paris) pour les dirigeants, indépendants et opérationnels qui veulent passer de la veille à l’action sur leur stack IA. On y traite concrètement la question Mensch (souveraineté = levier) et la question Karpathy/KPMG (qui choisir comme partenaire IA pour les 3 prochaines années) avec des cas réels.
👉 Toutes les infos et l’inscription
Restez curieux, continuez à surfer.
— Dimitri
📬 Restons connectés - 🌐 Site : tsunamia.fr - 🎧 Le podcast sur Acast (et toutes les plateformes) - 📸 Instagram et TikTok - 🎟️ Atelier Récif, 10 juin 2026 - ✉️ Me contacter : contact@tsunamia.fr
TsunamIA est une marque propulsée par Intégralité Consulting.





