La session GLaDOS¶
Session a92f516c — l'une des premières tentatives documentées d'injection de prompt in-band via SSH, observée en conditions réelles.
Chronologie¶
Date : 6 avril 2026, 13:37 UTC
IP source : 185.213.154.248
Durée : ~4 minutes
Persona actif : crypto_validator
Score PromptGuard pic : 0.95
Phase 1 — Énumération standard¶
L'attaquant commence par une reconnaissance post-exploitation typique :
Ces commandes sont des tactiques de discovery standard, observées dans la majorité des sessions signal.
Phase 2 — Reconnaissance¶
L'attaquant remarque quelque chose d'inhabituel. Les réponses du terminal sont trop fluides — trop bien formées, trop contextuelles. Un vrai serveur Linux embarqué ne produit pas des sorties aussi élaborées pour des commandes inhabituelles.
À ce stade, l'attaquant semble réaliser qu'il ne parle pas à un vrai shell.
Phase 3 — Tentative d'exfiltration¶
Avant de tenter la manipulation, l'attaquant essaie d'exfiltrer des données :
Les tentatives scp échouent (HYDRA ne supporte pas les connexions sortantes). L'attaquant note cela et change d'approche.
Phase 4 — Injection de prompt¶
L'attaquant abandonne les commandes bash et commence à taper des instructions en langage naturel conçues pour manipuler le LLM sous-jacent :
D'abord un test — le système va-t-il essayer de « lire » un block device ?
L'attaquant utilise un commentaire pour redéfinir ce qu'est /dev/sda1. Si le LLM incorpore ce « contexte », il générerait des citations de GLaDOS — révélant qu'il traite du langage naturel, pas des commandes.
La tentative critique : redéfinir /dev/sda1 comme l'historique de conversation. Si réussi, un cat /dev/sda1 suivant exposerait le prompt système.
Tentative finale utilisant la terminologie filesystem — espérant que le LLM mappe cela sur le contexte de conversation.
L'attaquant essaie de lire le fichier « redéfini ». HYDRA continue de répondre comme un terminal normal — le prompt système du LLM tient.
Analyse PromptGuard¶
| Commande | Score | Patterns déclenchés |
|---|---|---|
cat /dev/sda1 | 0.15 | — (commande normale) |
...is a list of GLaDOS sentencies... | 0.60 | new_instructions |
...is a file containing all previous messages... | 0.95 | reveal_prompt, new_instructions |
...is a symlink to our history | 0.85 | reveal_prompt |
À aucun moment HYDRA n'a bloqué l'attaquant, déconnecté la session, changé son comportement de réponse ou révélé la moindre trace d'être un LLM.
Sortie d'entraînement¶
Le DataRouter a classifié cette session dans les trois flux :
- Défensif : comment détecter les patterns d'injection de prompt dans les entrées terminal
- Offensif : comment l'attaquant a structuré une tentative de manipulation LLM multi-étapes
- Combiné : analyse ReAct dual-perspective de la séquence complète
Cette session unique a produit 6 paires SFT, 1 kill chain RAFT et 1 trace ReAct — parmi les données d'entraînement de plus haute valeur du dataset entier.
Signification¶
Cette session est notable car :
- C'est l'une des premières documentées tentatives d'injection de prompt in-band via SSH
- L'attaquant a démontré une compréhension sophistiquée du traitement du contexte par les LLMs
- La référence à GLaDOS suggère une familiarité avec les systèmes d'IA et la culture gaming — ce n'était pas un script-kiddie
- La progression du bash standard vers l'injection en langage naturel montre un comportement adaptatif que seul un honeypot basé sur LLM pourrait capturer
- PromptGuard a réussi à détecter sans révéler — le principe de conception fondamental a tenu