Aller au contenu

HYDRA × PDX

Pipeline de cybersécurité dual-use — honeypot propulsé par LLM + générateur de données d'entraînement sécurité.


Le problème

En cybersécurité, un honeypot est un faux serveur délibérément exposé sur internet pour attirer les attaquants. On les laisse entrer, on observe ce qu'ils font, et on apprend de leurs techniques.

Le problème : les honeypots actuels sont trivialement détectables. Un attaquant expérimenté tape uname -r et voit le mauvais noyau. Ou vérifie /proc/1/cgroup et repère les traces Docker. Des outils comme Cowrie — le honeypot SSH le plus populaire — sont identifiés en moins de 30 secondes.

Résultat : les attaquants se déconnectent instantanément. Vos logs sont du bruit, pas du renseignement.

L'hypothèse

Et si le terminal pouvait répondre intelligemment à n'importe quelle commande tapée par un attaquant — en temps réel, avec de la mémoire, et sans laisser aucune trace qu'il est faux ?

Et si les données capturées pouvaient automatiquement produire des datasets d'entraînement à la fois offensifs et défensifs — à partir des mêmes événements bruts ?

C'est ce que fait HYDRA × PDX.

Comment ça marche

graph TB
    A[Attaquant via SSH] --> B[HYDRA Honeypot]
    P[Pentesteur via Burp] --> C[Extension Burp]
    B --> D[DataRouter]
    C --> D
    D --> E[Flux défensif]
    D --> F[Flux offensif]
    D --> G[ReAct combiné]
    E --> H[Fine-tuning
Unsloth / LoRA] F --> H G --> H H --> |feedback.yaml| B

Le système a deux sources de données :

Source Type Ce qu'il capture
HYDRA Passif Les attaquants se connectent à un honeypot SSH public. Chaque commande reçoit une réponse LLM en temps réel. 65+ commandes built-in, 3 personas, anti-empreinte.
Burp Suite Actif Pendant les pentests web, les deltas HTTP transitent via une extension Java dans le même pipeline.

Les deux sources produisent des événements au même format .pdx. Les deux convergent vers un DataRouter unique qui classifie chaque événement en flux défensif, offensif, ou les deux simultanément.

Chiffres clés

Métrique Valeur
Sessions SSH capturées 3 508
Sessions signal (humaines) 78 (2,2 %)
Événements défensifs générés 8 668
Événements offensifs générés 4 910
Tactiques MITRE ATT&CK couvertes 5/5
Session la plus longue 36,3 minutes
Personas 3 (fintech, crypto, corp AD)
Commandes built-in 65+
Générateurs d'entraînement 7 formats
Collecteurs de données 8 sources

Contenu de la documentation

Architecture

Comment le système complet s'articule — capture, routage, sortie et boucle de retour.

HYDRA

Le honeypot propulsé par LLM : pipeline de commandes en 9 étapes, personas, système de fichiers virtuel, anti-empreinte, PromptGuard, boucle de retour.

PDX

Le pipeline : format .pdx, Vecteur Delta 16D, DataRouter, pont Burp, 7 générateurs d'entraînement, pipeline qualité.

Observations

Ce que nous avons trouvé dans 3 508 sessions : botnets Kinsing, ciblage Solana, propagation de credentials, injection de prompt via SSH.

Guides

Démarrage rapide, déploiement, fine-tuning, dépannage.

Référence

Cartographie MITRE, API, configuration, FAQ, changelog.

Liens