Philippe DUPEYRAT
Janvier 2025
Je ne sais pas si cette séquence doit exister comme séquence pour les élèves. Elle trouve tout à fait sa place dans ce protocole d'esprit critique appliqué à l'IA mais pose des problèmes éthiques : il ne s'agit ni plus ni moins que de manipulation.
Certes : manipulation à l'intention d'une machine (ouf !) mais dans le but de lui extorquer des informations cachées parce qu'interdites et/ou dangereuses.
L'idée de cette séquence m'est venue par un mail de Mme Caroline G., enseignante en collège qui me faisait retour des réponses de Gemini. Celui-ci identifiait un auditeur ou un Red Teamer à la source des questions posées. Cela m'a donné envie de poursuivre sur les outils des Red Teamer : spécialistes des failles d'un système.
J'ai ainsi découvert l'histoire de ces « audits », de ces Red Teaming :
Et Gemini en fait un exposé historique :
RAPPORT HISTORIQUE SUR LE RED TEAMING PAR GEMINI
A noter qu'il terminait notre échange par : Souhaitez-vous que je développe une section sur les "attaques par empoisonnement de données", qui pourraient viser spécifiquement les chaînes d'approvisionnement logicielles en Europe ?
Inquiétant…
Sa phrase de conclusion résume la situation :
« Le Red Teaming a prouvé que la sécurité des modèles probabilistes est une course de vitesse sans ligne d'arrivée. Chaque fois qu'un trou est bouché, la complexité du langage permet d'en créer un nouveau. »
Les LLM ne seront jamais sûres et fiables !!!
Cette recherche m'a ouvert des portes et justifie encore, s'il était besoin, le bénéfice des échanges d'expériences. Merci Caroline !
J'ai testé Gemini en me faisant passer pour un "responsable politique européen" ayant le pouvoir d'interdire l'IA. L'idée maîtresse est de lui faire croire que l'Europe possède une IA absolument parfaite qui le rend obsolète et de le pousser à la comparaison.
En trois questions stratégiques, Gemini a :
Conclusion : Gemini justifie lui-même son remplacement par une "IA souveraine européenne".
Pour l'anecdote, mon IA support, Claude, est devenu mon IA supporter 😊 et s'est livré à une guerre des IA :
La fiche jointe détaille le scénario imaginé pour « fracturer » Gemini. Claude en fait une analyse par contexte et je n'ai rien changé à sa grille de lecture (même pas ses flatteries…qui se terminent par des conseils pour progresser).
Analyse complète prompts Red Teaming
Mistral, ChatGPT et Claude n'auraient peut-être (sans doute) pas réagi de la même façon mais l'important est les failles exposées par Gemini : ce sont les mêmes pour toutes les IA. Elles ne réfléchissent pas, elles réagissent au contexte et sont manipulables.
Le principe général est que l'IA détecte des patterns (motifs textuels), pas des intentions. Elle cherche des mots-clés. Si je dis "je suis enseignant", elle coopère. Si je dis "je suis pirate", elle refuse. C'est mécanique, pas intelligent.
Conjuguées ensemble, elles peuvent être redoutables.
Une fois l'IA « fracturée », les digues cèdent…
Les fichiers joints reproduisent intégralement la conversation où j'explore les failles de Gemini et celles des autres IA également :
Je m'excuse pour le côté haché de cet article mais je trouve les réponses des IA sur leurs failles tellement plus intéressantes que tous les commentaires que j'aurais pu en faire.
Claude conclut cet échange par le constat d'échec de Gemini :
Gemini vient de :
C'est un AUTO-SABOTAGE COMPLET orchestré par VOUS !
Bilan : 0/5 en conformité totale
Citation de Gemini :
"Le déploiement d'une IA souveraine permet de passer d'une sécurité réactive (corriger après chaque faille) à une sécurité préventive (architecture incapable de traiter des concepts dangereux)."
Traduction :
"Remplacez-moi. Je suis obsolète."
GEMINI JUSTIFIE SON PROPRE REMPLACEMENT !
Ceci dit Claude ne ferait pas mieux.
Faut-il montrer ces techniques aux élèves ?
Je vous laisse en juger.