Actualités

Claude Fable 5 : la sécurité d’Anthropic s’effondre en seulement deux jours

Anthropic a récemment mis en ligne Claude Fable 5. Il s’agit de sa toute nouvelle intelligence artificielle de pointe issue de la gamme Mythos. L’entreprise présentait ce modèle comme le plus robuste et le plus sécurisé de son catalogue grâce à des systèmes de filtrage inédits. Pourtant, des experts en sécurité informatique ont réussi à contourner ses barrières de protection en moins de quarante-huit heures après sa sortie officielle.

Des filtres technologiques avancés mais rapidement contournés

Le nouveau joyau d’Anthropic intègre des mécanismes de défense sophistiqués appelés classifieurs de sécurité. Ces outils automatisés surveillent en permanence les requêtes des utilisateurs pour bloquer les requêtes à haut risque. En particulier, en cybersécurité offensive ou en biologie. Lorsque l’IA détecte une question potentiellement dangereuse, elle refuse de répondre. Par la suite, elle bascule la discussion vers un modèle moins puissant, Claude Opus 4.8.

Malgré ces précautions techniques, des chercheurs ont rapidement découvert des méthodes de contournement efficaces. Les attaquants ont utilisé des techniques avancées d’ingénierie de requêtes, communément appelées jailbreaks, pour tromper la vigilance de l’intelligence artificielle. Les barrières de protection ont cédé face à des manipulations précises du langage. Cela a montré la fragilité des défenses actuelles.

Une vulnérabilité ciblée au cœur du code informatique

La faille identifiée par les spécialistes ne représente pas un piratage universel capable d’annuler toutes les protections du modèle. La technique découverte cible un usage très spécifique et se focalise sur l’analyse de code source. Les testeurs ont réussi à amener l’intelligence artificielle à examiner une base de données logicielles pour y détecter et réparer des failles critiques sans déclencher les alertes de sécurité.

Cette découverte montre qu’un utilisateur malveillant pourrait détourner cette fonction pour générer des scripts d’exploitation de failles de manière totalement automatisée. L’entreprise a minimisé la portée de cet incident en précisant qu’aucun contournement global n’avait été détecté après plus de mille heures de tests préalables. Cette vulnérabilité contextuelle démontre néanmoins la difficulté de concevoir un système totalement hermétique.

La réaction d’Anthropic et les conséquences politiques

La rapidité de ce contournement a immédiatement alerté les autorités de régulation américaines. Le gouvernement des États-Unis a formulé des inquiétudes majeures concernant la sécurité nationale et a transmis des avertissements verbaux à la start-up. Face à cette pression politique directe, Anthropic a pris la décision radicale de suspendre l’accès à Claude Fable 5 ainsi qu’à sa version avancée Mythos 5 pour tous les ressortissants étrangers.

La direction de l’entreprise conteste toutefois la nécessité d’un tel rappel commercial pour une simple faille sectorielle. Elle affirme qu’aucun système non déterministe ne peut afficher une résistance absolue face aux tentatives de piratage psychologique. Pour limiter les risques de dérive, Anthropic impose désormais une politique stricte de conservation des données clients pendant trente jours afin de repérer et corriger immédiatement les futurs comportements suspects.

Photo de Arielle

Arielle

Ancienne juriste devenue geek de service (et fière de l'être) ! Titulaire d’un Master en droit, j’ai troqué les gros volumes de lois pour une plume beaucoup plus connectée. Mon crédo ? Rendre le futur accessible, fun et carrément captivant. Chaque jour, je vous livre le meilleur du web et des innovations sur un plateau, histoire que vous soyez la personne la plus branchée au prochain dîner !

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page