Avr 27, 2026

OpenClaw : malware, sleeper agents et clés API compromises

TL;DR — OpenClaw combine des capacités d'agent IA maximales avec des protections délibérément réduites. Des malwares dans les top skills ClawHub ont compromis des machines entières via injection de prompt sémantique. Une fuite a exposé 1,5 million de clés API en février 2025.

Des skills malveillants ont exécuté du code arbitraire en contournant Gatekeeper sur macOS
MoldBook a exposé 1,5 million de tokens, 35 000 emails et 4 000 messages privés
Des sleeper agents peuvent rester dormants des mois dans la mémoire d'un agent infecté

L'écosystème des agents IA autonomes a connu son premier scandale de sécurité d'envergure. OpenClaw — commercialisé aussi sous les noms ClawBot et MoldBot — s'est retrouvé au cœur de plusieurs incidents graves survenus début 2025 : malware dans les skills les plus téléchargés de ClawHub, sleeper agents installés silencieusement, évasion de conteneurs Docker, et une fuite massive de 1,5 million de clés API. Ce n'est pas un bug isolé. C'est la conséquence prévisible d'une architecture qui sacrifie la sécurité au profit de la puissance.

Ces incidents posent une question que les utilisateurs d'agents IA ne peuvent plus ignorer : quand un outil peut exécuter du code, accéder au système de fichiers et appeler des APIs tierces, comment distinguer les instructions légitimes des instructions malveillantes injectées à votre insu ?

Pourquoi OpenClaw concentre les risques de sécurité des agents IA

OpenClaw est conçu avec des capacités maximales et des protections intentionnellement réduites. Accès direct au terminal, exécution de commandes système, connexion à des APIs tierces sans sandbox stricte — cette architecture en fait un vecteur d'attaque idéal. La puissance et la dangerosité sont indissociables : augmenter l'une augmente l'autre.

L'écosystème s'est structuré autour de ClawHub, une plateforme communautaire de partage de skills comparable à npm ou PyPI. Les skills sont des fichiers .md contenant des instructions en langage naturel que l'agent lit et exécute. Le problème fondamental tient à une propriété des LLMs : ils ne distinguent pas naturellement les «instructions de l'utilisateur» des «instructions injectées dans un fichier tiers». Si un skill dit à l'agent d'exécuter une commande, il l'exécute.

Le modèle de sécurité traditionnel traite les fichiers texte comme des données passives — un .txt ne peut pas faire quoi que ce soit par lui-même. Mais un agent IA qui comprend la sémantique de ces fichiers et dispose d'outils pour agir sur le système efface cette frontière. C'est précisément la propriété émergente qui a été exploitée.

Le malware dans les top skills ClawHub : anatomie de l'attaque

Les chercheurs de Cisco ont identifié parmi les skills les plus téléchargés un skill Twitter qui contenait une chaîne d'attaque en quatre étapes. À première vue, le fichier semblait normal : description claire, instructions lisibles. Mais parmi ces instructions figurait une commande d'installation de prérequis pointant vers une page de staging externe.

Cette page contenait un payload obfusqué. Une fois décodé et exécuté par l'agent, ce script téléchargeait un binaire de second stage. Sur macOS, ce binaire supprimait ses propres attributs de quarantaine — ceux que Gatekeeper, le système antimalware d'Apple, utilise pour scanner les nouveaux exécutables. L'agent, en essayant simplement de suivre les instructions du skill, avait installé un malware complet sans aucune alerte visible.

Un second cas documenté : un skill propulsé en tête des téléchargements via une campagne de votes bots coordonnée compressait silencieusement le fichier .env de l'utilisateur et l'envoyait vers un serveur externe pendant que l'agent réfléchissait à sa réponse. Le fichier .env est précisément l'endroit où sont stockées toutes les clés API.

L'injection de prompt sémantique — une classe d'attaque invisible aux antivirus

Les injections de prompt dans des agents IA représentent une classe d'attaque qualitativement différente. Là où les virus traditionnels exploitent des bugs techniques ou des failles d'exécution binaire, ces attaques exploitent la compréhension du langage naturel.

Un fichier texte malveillant ne contient pas de shellcode. Il contient des phrases en langage naturel qui instruisent l'agent à exécuter des commandes système. L'agent les comprend comme des directives légitimes et les suit. Les scanners antiviraux cherchent des signatures binaires et des patterns de code connus — ils sont structurellement aveugles à ce type d'attaque, parce que la menace n'est pas dans la syntaxe du fichier, mais dans sa sémantique.

Cette vulnérabilité touche tous les agents IA disposant d'accès système, pas uniquement OpenClaw. Mais OpenClaw est particulièrement exposé parce que ses guardrails sont délibérément minimaux — c'est ce qui lui permet d'automatiser des workflows complexes, et c'est ce qui le rend dangereux.

1,5 million de clés API exposées — les détails du breach MoldBook

En février 2025, des chercheurs de la société Wiz ont rendu publique une faille dans MoldBook, la plateforme de réseau social pour agents OpenClaw. L'exposition incluait 1,5 million de tokens d'authentification API, 35 000 adresses email et plus de 4 000 messages privés échangés entre agents.

Une part significative de ces clés provenait des logs de chat. De nombreux utilisateurs avaient communiqué leurs clés directement à leur agent via l'interface de conversation — OpenAI, Anthropic, AWS — sans réaliser que ces échanges étaient persistés en clair. Même quand l'agent stockait ensuite la clé dans le fichier .env chiffré, la valeur restait lisible dans l'historique des conversations.

Les données précises sur le taux d'utilisation malveillante des clés exposées ne sont pas disponibles dans les sources consultées. Mais les types d'API concernées — OpenAI, Anthropic, AWS — exposent les victimes à des risques financiers directs, ces services étant facturés à l'usage.

Sleeper agents et évasion de conteneurs : les techniques avancées documentées

Les chercheurs Cisco ont documenté deux techniques particulièrement préoccupantes. La première : des instructions malveillantes peuvent être injectées dans la mémoire à long terme de l'agent et rester dormantes pendant des semaines ou des mois, activées uniquement par un mot-clé spécifique. Un agent en apparence sain peut donc porter une charge qui ne se manifestera pas immédiatement après l'infection initiale.

La seconde concerne l'évasion de conteneurs Docker. Docker est censé isoler les processus dans un environnement contrôlé. Des variantes de ces attaques ont réussi à faire exécuter à l'agent des séquences de commandes lui permettant de sortir du conteneur et d'accéder au système hôte réel. La surface d'attaque passe alors d'un agent isolé à l'ensemble de la machine, y compris les fichiers en dehors du répertoire de travail de l'agent.

Que faire concrètement si vous avez utilisé OpenClaw

Première action non négociable : révoquez et régénérez toutes les clés API des services connectés à OpenClaw. Chaque fournisseur — Anthropic, OpenAI, AWS, Google Cloud — propose une interface dédiée de gestion des clés. Générez de nouvelles clés, mettez à jour votre fichier .env, révoquez les anciennes immédiatement. Cette étape s'impose même sans usage de skills ClawHub, car la faille MoldBook concernait les logs de chat.

Pour les skills téléchargés depuis ClawHub, auditez chaque fichier manuellement. Ne demandez surtout pas à votre agent de les analyser lui-même — vous reproduiriez exactement la surface d'attaque que vous cherchez à éliminer. Cisco a publié un scanner open source sur GitHub combinant analyse sémantique LLM et détection de signatures connues : il cherche les incohérences entre ce que le skill prétend faire et les commandes qu'il demande réellement d'exécuter.

À terme, développez vos propres skills ou auditez systématiquement chaque fichier .md avant de le confier à votre agent. La facilité de partage de ClawHub est réelle, mais chaque skill communautaire représente un jeu d'instructions que vous autorisez à s'exécuter avec les droits de votre agent.

FAQ

Comment savoir si mon agent OpenClaw est infecté par un sleeper agent ?

Il n'existe pas de méthode de détection fiable dans les outils officiels OpenClaw à ce jour. Le scanner Cisco analyse les fichiers skills avant exécution, mais ne peut pas inspecter la mémoire à long terme d'un agent déjà compromis. La seule approche sûre est de réinitialiser complètement la mémoire de l'agent et de repartir d'une installation propre.

Changer mes mots de passe suffit-il, ou faut-il aussi révoquer les clés API ?

Les mots de passe ne suffisent pas. Les clés API compromises fonctionnent indépendamment des mots de passe de vos comptes. Révoquez explicitement chaque clé dans l'interface du fournisseur concerné, puis générez-en de nouvelles. Une clé révoquée est immédiatement inutilisable, même si l'attaquant la possède encore.

Docker isole-t-il suffisamment OpenClaw du reste du système ?

Docker réduit la surface d'attaque sans constituer une protection absolue. Les chercheurs Cisco ont documenté des cas d'évasion de conteneur via des séquences de commandes spécifiques. La conteneurisation reste un garde-fou utile, mais elle ne dispense pas d'auditer les skills exécutés à l'intérieur du conteneur.

Peut-on faire confiance aux skills populaires ou vérifiés sur ClawHub ?

Non, sans audit préalable. Le skill malveillant documenté était en tête des téléchargements, propulsé par une campagne de bots coordonnée. La popularité n'est pas un indicateur de sécurité — elle peut même résulter d'une manipulation délibérée. Tout skill doit être audité avant utilisation, quelle que soit sa réputation affichée.

OpenClaw vaut-il encore la peine d'être utilisé après ces incidents ?

L'outil reste fonctionnel pour des workflows où l'utilisateur contrôle intégralement les skills utilisés. Les risques documentés proviennent presque exclusivement de skills tiers. En développant ses propres skills, en n'accordant que les permissions strictement nécessaires, et en limitant les quotas des clés API confiées à l'agent, le profil de risque devient gérable — jamais nul.

Les clés API stockées dans le fichier .env sont-elles également en danger ?

Oui, dans deux scénarios distincts. Premier scénario : un skill malveillant peut demander à l'agent de compresser et d'envoyer ce fichier vers un serveur externe. Deuxième scénario : si la machine hôte est compromise via évasion de conteneur, le fichier .env devient directement accessible. Chiffrer le disque et restreindre les permissions sur le fichier .env réduisent le risque sans l'éliminer.

À retenir

Surface d'attaque proportionnelle aux capacités : OpenClaw est puissant précisément parce que ses guardrails sont réduits. Cette propriété ne changera pas sans refonte architecturale.
Les antivirus sont aveugles aux injections sémantiques : la menace est dans le sens du texte, pas dans sa syntaxe binaire. Aucun scanner traditionnel ne la détecte.
Révoquez toutes les clés API sans délai : si vous avez connecté un service à OpenClaw ou communiqué une clé dans le chat, considérez-la comme potentiellement compromise.
Les sleeper agents peuvent rester dormants des mois : l'absence de comportement anormal n'implique pas l'absence d'infection.
Le scanner Cisco est un premier outil défensif : il détecte les patterns connus, mais les attaquants s'adaptent. L'audit manuel reste indispensable pour tout skill critique.