Qu'est-ce que PDX¶
PDX est un framework d'analyse de sécurité qui transforme des événements bruts en datasets d'entraînement structurés pour le fine-tuning de LLMs. C'est le pipeline qui transforme les observations en connaissance.
PDX n'est pas limité aux données HYDRA. Il a deux sources d'entrée :
- Sessions HYDRA (passif) — Événements honeypot SSH via fichiers JSONL
- Burp Suite (actif) — Deltas HTTP capturés pendant les pentests web via une extension Java
Les deux sources produisent des données au même format .pdx et passent par le même DataRouter, les mêmes générateurs et le même pipeline qualité.
Composants principaux¶
| Composant | Objectif |
|---|---|
Format .pdx | Format binaire pour les observations de sécurité |
| Vecteur Delta 16D | Scoring 16 dimensions de chaque observation |
| DataRouter | Classification dual-use (défensif + offensif) |
| Pont Burp | Extension Java + proxy Python pour le pentesting web |
| Générateurs | 7 générateurs : SFT, DPO, RAFT, ReAct, CoT, Chain, JS |
| Pipeline qualité | Déduplication, filtrage, ordonnancement curriculaire |
| Routeur multi-modèles | Cascade 4 niveaux : 7B → 32B → API Anthropic → fallback |
| 8 collecteurs | NVD, ExploitDB, OWASP, MITRE ATT&CK, Nuclei, CWE, RFC, man |
Le routeur multi-modèles¶
Niveau 1 : Copilot local (7B) — première passe rapide
↓ incertain ?
Niveau 2 : Teacher local (32B) — seconde passe détaillée
↓ toujours incertain ?
Niveau 3 : API Anthropic — quand la complexité l'exige
↓ indisponible ?
Niveau 4 : WebChat fallback — marqué NÉCESSITE VALIDATION HUMAINE
Chaque niveau produit un verdict : VULNERABLE, NOT_VULN, INFORMATIONAL, UNCERTAIN ou FALSE_POS. Quand les niveaux divergent, le conflit est signalé. Rien n'est supprimé.
Les 8 collecteurs¶
| Collecteur | Source | Ce qu'il ajoute |
|---|---|---|
nvd_collector | NVD/NIST | Détails CVE, scores CVSS |
exploitdb_collector | ExploitDB | Exploits connus |
owasp_collector | OWASP | Classifications web |
attackmitre_collector | MITRE ATT&CK | Mapping tactique/technique |
nuclei_collector | Nuclei | Signatures de détection |
cwe_collector | CWE | Classifications de faiblesses |
rfc_collector | RFCs IETF | Spécifications de protocoles |
manpage_collector | Pages man | Documentation des commandes |
Sortie¶
- Défensif — Paires SFT pour la détection + paires DPO pour l'efficacité des leurres
- Offensif — Paires SFT pour les chaînes d'attaque + RAFT pour les kill chains
- Combiné — Traces ReAct analysant la même séquence sous les deux perspectives
Le fine-tuning s'exécute localement via Unsloth avec des adaptateurs LoRA sur Qwen ou Llama.