HYDRA × PDX¶
Pipeline de cybersécurité dual-use — honeypot propulsé par LLM + générateur de données d'entraînement sécurité.
Le problème¶
En cybersécurité, un honeypot est un faux serveur délibérément exposé sur internet pour attirer les attaquants. On les laisse entrer, on observe ce qu'ils font, et on apprend de leurs techniques.
Le problème : les honeypots actuels sont trivialement détectables. Un attaquant expérimenté tape uname -r et voit le mauvais noyau. Ou vérifie /proc/1/cgroup et repère les traces Docker. Des outils comme Cowrie — le honeypot SSH le plus populaire — sont identifiés en moins de 30 secondes.
Résultat : les attaquants se déconnectent instantanément. Vos logs sont du bruit, pas du renseignement.
L'hypothèse¶
Et si le terminal pouvait répondre intelligemment à n'importe quelle commande tapée par un attaquant — en temps réel, avec de la mémoire, et sans laisser aucune trace qu'il est faux ?
Et si les données capturées pouvaient automatiquement produire des datasets d'entraînement à la fois offensifs et défensifs — à partir des mêmes événements bruts ?
C'est ce que fait HYDRA × PDX.
Comment ça marche¶
graph TB
A[Attaquant via SSH] --> B[HYDRA Honeypot]
P[Pentesteur via Burp] --> C[Extension Burp]
B --> D[DataRouter]
C --> D
D --> E[Flux défensif]
D --> F[Flux offensif]
D --> G[ReAct combiné]
E --> H[Fine-tuning
Unsloth / LoRA]
F --> H
G --> H
H --> |feedback.yaml| B
Le système a deux sources de données :
| Source | Type | Ce qu'il capture |
|---|---|---|
| HYDRA | Passif | Les attaquants se connectent à un honeypot SSH public. Chaque commande reçoit une réponse LLM en temps réel. 65+ commandes built-in, 3 personas, anti-empreinte. |
| Burp Suite | Actif | Pendant les pentests web, les deltas HTTP transitent via une extension Java dans le même pipeline. |
Les deux sources produisent des événements au même format .pdx. Les deux convergent vers un DataRouter unique qui classifie chaque événement en flux défensif, offensif, ou les deux simultanément.
Chiffres clés¶
| Métrique | Valeur |
|---|---|
| Sessions SSH capturées | 3 508 |
| Sessions signal (humaines) | 78 (2,2 %) |
| Événements défensifs générés | 8 668 |
| Événements offensifs générés | 4 910 |
| Tactiques MITRE ATT&CK couvertes | 5/5 |
| Session la plus longue | 36,3 minutes |
| Personas | 3 (fintech, crypto, corp AD) |
| Commandes built-in | 65+ |
| Générateurs d'entraînement | 7 formats |
| Collecteurs de données | 8 sources |
Contenu de la documentation¶
Architecture¶
Comment le système complet s'articule — capture, routage, sortie et boucle de retour.
HYDRA¶
Le honeypot propulsé par LLM : pipeline de commandes en 9 étapes, personas, système de fichiers virtuel, anti-empreinte, PromptGuard, boucle de retour.
PDX¶
Le pipeline : format .pdx, Vecteur Delta 16D, DataRouter, pont Burp, 7 générateurs d'entraînement, pipeline qualité.
Observations¶
Ce que nous avons trouvé dans 3 508 sessions : botnets Kinsing, ciblage Solana, propagation de credentials, injection de prompt via SSH.
Liens¶
- Dépôt GitHub
- Article arXiv (à venir)