HYDRA × PDX¶

Pipeline de cybersécurité dual-use — honeypot propulsé par LLM + générateur de données d'entraînement sécurité.

Le problème¶

En cybersécurité, un honeypot est un faux serveur délibérément exposé sur internet pour attirer les attaquants. On les laisse entrer, on observe ce qu'ils font, et on apprend de leurs techniques.

Le problème : les honeypots actuels sont trivialement détectables. Un attaquant expérimenté tape uname -r et voit le mauvais noyau. Ou vérifie /proc/1/cgroup et repère les traces Docker. Des outils comme Cowrie — le honeypot SSH le plus populaire — sont identifiés en moins de 30 secondes.

Résultat : les attaquants se déconnectent instantanément. Vos logs sont du bruit, pas du renseignement.

L'hypothèse¶

Et si le terminal pouvait répondre intelligemment à n'importe quelle commande tapée par un attaquant — en temps réel, avec de la mémoire, et sans laisser aucune trace qu'il est faux ?

Et si les données capturées pouvaient automatiquement produire des datasets d'entraînement à la fois offensifs et défensifs — à partir des mêmes événements bruts ?

C'est ce que fait HYDRA × PDX.

Comment ça marche¶

graph TB
    A[Attaquant via SSH] --> B[HYDRA Honeypot]
    P[Pentesteur via Burp] --> C[Extension Burp]
    B --> D[DataRouter]
    C --> D
    D --> E[Flux défensif]
    D --> F[Flux offensif]
    D --> G[ReAct combiné]
    E --> H[Fine-tuning
Unsloth / LoRA]
    F --> H
    G --> H
    H --> |feedback.yaml| B

Le système a deux sources de données :

Source	Type	Ce qu'il capture
HYDRA	Passif	Les attaquants se connectent à un honeypot SSH public. Chaque commande reçoit une réponse LLM en temps réel. 65+ commandes built-in, 3 personas, anti-empreinte.
Burp Suite	Actif	Pendant les pentests web, les deltas HTTP transitent via une extension Java dans le même pipeline.

Les deux sources produisent des événements au même format .pdx. Les deux convergent vers un DataRouter unique qui classifie chaque événement en flux défensif, offensif, ou les deux simultanément.

Chiffres clés¶

Métrique	Valeur
Sessions SSH capturées	3 508
Sessions signal (humaines)	78 (2,2 %)
Événements défensifs générés	8 668
Événements offensifs générés	4 910
Tactiques MITRE ATT&CK couvertes	5/5
Session la plus longue	36,3 minutes
Personas	3 (fintech, crypto, corp AD)
Commandes built-in	65+
Générateurs d'entraînement	7 formats
Collecteurs de données	8 sources

Contenu de la documentation¶

Architecture ¶

Comment le système complet s'articule — capture, routage, sortie et boucle de retour.

HYDRA ¶

Le honeypot propulsé par LLM : pipeline de commandes en 9 étapes, personas, système de fichiers virtuel, anti-empreinte, PromptGuard, boucle de retour.

PDX ¶

Le pipeline : format .pdx, Vecteur Delta 16D, DataRouter, pont Burp, 7 générateurs d'entraînement, pipeline qualité.

HYDRA × PDX¶

Le problème¶

L'hypothèse¶

Comment ça marche¶

Chiffres clés¶

Contenu de la documentation¶

Architecture ¶

HYDRA ¶

PDX ¶

Observations ¶

Guides ¶

Référence ¶

Liens¶

HYDRA × PDX¶

Le problème¶

L'hypothèse¶

Comment ça marche¶

Chiffres clés¶

Contenu de la documentation¶

Architecture¶

HYDRA¶

PDX¶

Observations¶

Guides¶

Référence¶

Liens¶

Architecture ¶

HYDRA ¶

PDX ¶

Observations ¶

Guides ¶

Référence ¶