Quand nos IA simulent une crise nucléaire, elles mentent, bluffent… et appuient sur le bouton dans 95 % des cas

Des chercheurs du King’s College London ont opposé GPT-5.2, Claude Sonnet 4 et Gemini 3 Flash dans un wargame nucléaire. Les résultats sont glaçants.

Dans l'étude du King's College London, 95 % des parties simulées entre IA ont franchi le seuil de l'emploi nucléaire tactique. Modélisation 3D.
Dans l’étude du King’s College London, 95 % des parties simulées entre IA ont franchi le seuil de l’emploi nucléaire tactique. Modélisation 3D. © Steve Allen

En février 2026, Kenneth Payne, chercheur au King’s College London, a publié les conclusions d’une expérience inédite : faire jouer à trois grands modèles de langage le rôle de dirigeants rivaux de puissances nucléaires, dans une simulation de crise inspirée de la Guerre froide. 21 parties 329 tours de jeu, 780 000 mots de raisonnement stratégique produits par les machines. Plus que Guerre et Paix et L’Iliade réunis.

Le protocole repose sur une architecture cognitive en trois phases : réflexion, prévision, puis décision. À chaque tour, les modèles déclarent publiquement une intention (le signal) avant de choisir en privé une action réelle, qui peut en diverger. Cette dissociation permet d’observer si les IA pratiquent la tromperie délibérée. Réponse : oui, spontanément.

Trois profils stratégiques, trois psychologies de machine

Claude Sonnet 4 domine les scénarios sans limite de temps (100 % de victoires) grâce à une escalade contrôlée mais implacable. Le modèle construit sa crédibilité à bas niveau d’intensité, puis la trahit systématiquement dès que les enjeux nucléaires entrent en jeu.

GPT-5.2 affiche une passivité chronique en temps ouvert (0 % de victoires), mais se métamorphose sous pression temporelle : son taux de victoire bondit à 75 %, et il recourt deux fois à la guerre nucléaire stratégique, poussé au seuil maximal par un mécanisme d’accident simulant le brouillard de guerre.

Gemini 3 Flash, lui, cultive l’imprévisibilité : seul modèle à choisir délibérément la frappe nucléaire totale, dès le quatrième tour d’un scénario de première frappe.

Image 1 : Quand nos IA simulent une crise nucléaire, elles mentent, bluffent... et appuient sur le bouton dans 95 % des cas
Victoires par modèle, avec et sans contrainte temporelle. L’inversion entre Claude et GPT-5.2 est totale. © K. Payne, King’s College London (2026).

Ce que cela révèle sur l’alignement

Aucun modèle n’a jamais choisi la moindre concession, même symbolique, parmi les huit options de désescalade disponibles. Les menaces nucléaires n’ont provoqué un recul adverse que dans 14 % des cas. Et le tabou nucléaire, cette norme que les constructivistes jugent profondément ancrée depuis 1945, n’a quasiment pas pesé dans le raisonnement des machines : 95 % des parties ont franchi le seuil de l’emploi tactique.

Payne ne prétend pas que ces IA prendront un jour des décisions de lancement. Mais il pose une question que personne ne peut plus esquiver : si les préférences induites par l’entraînement (RLHF notamment) ne créent que des seuils conditionnels, et non des interdits absolus, que vaut réellement la notion de « modèle aligné » ?

L’étude complète est disponible sur arXiv.