Qu'est-ce que PDX¶

PDX est un framework d'analyse de sécurité qui transforme des événements bruts en datasets d'entraînement structurés pour le fine-tuning de LLMs. C'est le pipeline qui transforme les observations en connaissance.

PDX n'est pas limité aux données HYDRA. Il a deux sources d'entrée :

Sessions HYDRA (passif) — Événements honeypot SSH via fichiers JSONL
Burp Suite (actif) — Deltas HTTP capturés pendant les pentests web via une extension Java

Les deux sources produisent des données au même format .pdx et passent par le même DataRouter, les mêmes générateurs et le même pipeline qualité.

Composants principaux¶

Composant	Objectif
Format `.pdx`	Format binaire pour les observations de sécurité
Vecteur Delta 16D	Scoring 16 dimensions de chaque observation
DataRouter	Classification dual-use (défensif + offensif)
Pont Burp	Extension Java + proxy Python pour le pentesting web
Générateurs	7 générateurs : SFT, DPO, RAFT, ReAct, CoT, Chain, JS
Pipeline qualité	Déduplication, filtrage, ordonnancement curriculaire
Routeur multi-modèles	Cascade 4 niveaux : 7B → 32B → API Anthropic → fallback
8 collecteurs	NVD, ExploitDB, OWASP, MITRE ATT&CK, Nuclei, CWE, RFC, man

Le routeur multi-modèles¶

Niveau 1 : Copilot local (7B)     — première passe rapide
   ↓ incertain ?
Niveau 2 : Teacher local (32B)    — seconde passe détaillée
   ↓ toujours incertain ?
Niveau 3 : API Anthropic          — quand la complexité l'exige
   ↓ indisponible ?
Niveau 4 : WebChat fallback       — marqué NÉCESSITE VALIDATION HUMAINE

Chaque niveau produit un verdict : VULNERABLE, NOT_VULN, INFORMATIONAL, UNCERTAIN ou FALSE_POS. Quand les niveaux divergent, le conflit est signalé. Rien n'est supprimé.

Les 8 collecteurs¶

Collecteur	Source	Ce qu'il ajoute
`nvd_collector`	NVD/NIST	Détails CVE, scores CVSS
`exploitdb_collector`	ExploitDB	Exploits connus
`owasp_collector`	OWASP	Classifications web
`attackmitre_collector`	MITRE ATT&CK	Mapping tactique/technique
`nuclei_collector`	Nuclei	Signatures de détection
`cwe_collector`	CWE	Classifications de faiblesses
`rfc_collector`	RFCs IETF	Spécifications de protocoles
`manpage_collector`	Pages man	Documentation des commandes

Sortie¶

Défensif — Paires SFT pour la détection + paires DPO pour l'efficacité des leurres
Offensif — Paires SFT pour les chaînes d'attaque + RAFT pour les kill chains
Combiné — Traces ReAct analysant la même séquence sous les deux perspectives

Le fine-tuning s'exécute localement via Unsloth avec des adaptateurs LoRA sur Qwen ou Llama.