Claude Fable 5 : la sécurité d’Anthropic s’effondre en seulement deux jours

Anthropic a récemment mis en ligne Claude Fable 5. Il s’agit de sa toute nouvelle intelligence artificielle de pointe issue de la gamme Mythos. L’entreprise présentait ce modèle comme le plus robuste et le plus sécurisé de son catalogue grâce à des systèmes de filtrage inédits. Pourtant, des experts en sécurité informatique ont réussi à contourner ses barrières de protection en moins de quarante-huit heures après sa sortie officielle.
Des filtres technologiques avancés mais rapidement contournés
Le nouveau joyau d’Anthropic intègre des mécanismes de défense sophistiqués appelés classifieurs de sécurité. Ces outils automatisés surveillent en permanence les requêtes des utilisateurs pour bloquer les requêtes à haut risque. En particulier, en cybersécurité offensive ou en biologie. Lorsque l’IA détecte une question potentiellement dangereuse, elle refuse de répondre. Par la suite, elle bascule la discussion vers un modèle moins puissant, Claude Opus 4.8.
Malgré ces précautions techniques, des chercheurs ont rapidement découvert des méthodes de contournement efficaces. Les attaquants ont utilisé des techniques avancées d’ingénierie de requêtes, communément appelées jailbreaks, pour tromper la vigilance de l’intelligence artificielle. Les barrières de protection ont cédé face à des manipulations précises du langage. Cela a montré la fragilité des défenses actuelles.
Une vulnérabilité ciblée au cœur du code informatique
La faille identifiée par les spécialistes ne représente pas un piratage universel capable d’annuler toutes les protections du modèle. La technique découverte cible un usage très spécifique et se focalise sur l’analyse de code source. Les testeurs ont réussi à amener l’intelligence artificielle à examiner une base de données logicielles pour y détecter et réparer des failles critiques sans déclencher les alertes de sécurité.
Cette découverte montre qu’un utilisateur malveillant pourrait détourner cette fonction pour générer des scripts d’exploitation de failles de manière totalement automatisée. L’entreprise a minimisé la portée de cet incident en précisant qu’aucun contournement global n’avait été détecté après plus de mille heures de tests préalables. Cette vulnérabilité contextuelle démontre néanmoins la difficulté de concevoir un système totalement hermétique.
La réaction d’Anthropic et les conséquences politiques
La rapidité de ce contournement a immédiatement alerté les autorités de régulation américaines. Le gouvernement des États-Unis a formulé des inquiétudes majeures concernant la sécurité nationale et a transmis des avertissements verbaux à la start-up. Face à cette pression politique directe, Anthropic a pris la décision radicale de suspendre l’accès à Claude Fable 5 ainsi qu’à sa version avancée Mythos 5 pour tous les ressortissants étrangers.
La direction de l’entreprise conteste toutefois la nécessité d’un tel rappel commercial pour une simple faille sectorielle. Elle affirme qu’aucun système non déterministe ne peut afficher une résistance absolue face aux tentatives de piratage psychologique. Pour limiter les risques de dérive, Anthropic impose désormais une politique stricte de conservation des données clients pendant trente jours afin de repérer et corriger immédiatement les futurs comportements suspects.



