Aller au contenu

Qu'est-ce que PDX

PDX est un framework d'analyse de sécurité qui transforme des événements bruts en datasets d'entraînement structurés pour le fine-tuning de LLMs. C'est le pipeline qui transforme les observations en connaissance.

PDX n'est pas limité aux données HYDRA. Il a deux sources d'entrée :

  • Sessions HYDRA (passif) — Événements honeypot SSH via fichiers JSONL
  • Burp Suite (actif) — Deltas HTTP capturés pendant les pentests web via une extension Java

Les deux sources produisent des données au même format .pdx et passent par le même DataRouter, les mêmes générateurs et le même pipeline qualité.

Composants principaux

Composant Objectif
Format .pdx Format binaire pour les observations de sécurité
Vecteur Delta 16D Scoring 16 dimensions de chaque observation
DataRouter Classification dual-use (défensif + offensif)
Pont Burp Extension Java + proxy Python pour le pentesting web
Générateurs 7 générateurs : SFT, DPO, RAFT, ReAct, CoT, Chain, JS
Pipeline qualité Déduplication, filtrage, ordonnancement curriculaire
Routeur multi-modèles Cascade 4 niveaux : 7B → 32B → API Anthropic → fallback
8 collecteurs NVD, ExploitDB, OWASP, MITRE ATT&CK, Nuclei, CWE, RFC, man

Le routeur multi-modèles

Niveau 1 : Copilot local (7B)     — première passe rapide
   ↓ incertain ?
Niveau 2 : Teacher local (32B)    — seconde passe détaillée
   ↓ toujours incertain ?
Niveau 3 : API Anthropic          — quand la complexité l'exige
   ↓ indisponible ?
Niveau 4 : WebChat fallback       — marqué NÉCESSITE VALIDATION HUMAINE

Chaque niveau produit un verdict : VULNERABLE, NOT_VULN, INFORMATIONAL, UNCERTAIN ou FALSE_POS. Quand les niveaux divergent, le conflit est signalé. Rien n'est supprimé.

Les 8 collecteurs

Collecteur Source Ce qu'il ajoute
nvd_collector NVD/NIST Détails CVE, scores CVSS
exploitdb_collector ExploitDB Exploits connus
owasp_collector OWASP Classifications web
attackmitre_collector MITRE ATT&CK Mapping tactique/technique
nuclei_collector Nuclei Signatures de détection
cwe_collector CWE Classifications de faiblesses
rfc_collector RFCs IETF Spécifications de protocoles
manpage_collector Pages man Documentation des commandes

Sortie

  • Défensif — Paires SFT pour la détection + paires DPO pour l'efficacité des leurres
  • Offensif — Paires SFT pour les chaînes d'attaque + RAFT pour les kill chains
  • Combiné — Traces ReAct analysant la même séquence sous les deux perspectives

Le fine-tuning s'exécute localement via Unsloth avec des adaptateurs LoRA sur Qwen ou Llama.