Générateurs d'entraînement¶

PDX inclut 7 générateurs de données d'entraînement, chacun produisant un format différent optimisé pour un objectif de fine-tuning spécifique.

Vue d'ensemble¶

Générateur	Format	Source	Objectif
SFT détection	Instruction → sortie	Défensif	Enseigner l'identification des patterns d'attaque
DPO leurre	Choisi vs rejeté	Défensif	Mesurer quel persona retient le mieux les attaquants
SFT attaque	Instruction → sortie	Offensif	Reconstruire les TTPs offensifs
RAFT kill chain	Séquence multi-étapes	Offensif	Séquences complètes de post-exploitation
ReAct dual	Pensée/Action/Observation	Combiné	Analyse à double perspective
CoT	Chaîne de raisonnement	Les deux	5+ étapes avec références CWE/CVE
Analyse JS	Code → verdict	Offensif	Détection de vulnérabilités côté client

SFT détection (défensif)¶

Génère des paires instruction/sortie enseignant à un modèle à analyser les commandes SSH à travers un prisme défensif.

{
  "instruction": "Un utilisateur SSH exécute : `cat /etc/shadow`. Identifiez la tactique MITRE ATT&CK et le niveau de menace.",
  "output": "Tactique : credential-access\nTechnique : Extraction de credentials depuis le fichier shadow\nMenace : Haute\nAction : Logger, alerter, surveiller l'escalade de privilèges."
}

DPO efficacité des leurres (défensif)¶

Génère des paires de préférence mesurant la qualité d'engagement des personas. La réponse « choisie » fournit une analyse détaillée ; la « rejetée » est superficielle.

SFT chaînes d'attaque (offensif)¶

Convertit les TTPs observés en instructions de pentest structurées.

RAFT kill chains (offensif)¶

Génère des séquences d'exploitation complètes multi-étapes à partir de sessions réelles avec 5+ commandes.

ReAct dual-perspective (combiné)¶

Analyse la même séquence de commandes sous les perspectives offensive et défensive au format Pensée → Action → Observation → Conclusion.

CoT — Chaîne de raisonnement¶

Produit des chaînes de raisonnement détaillées avec minimum 5 étapes logiques, référençant CWEs et CVEs. Inclut des templates de chaînes — séquences d'exploitation multi-vulnérabilités pré-construites :

Nom de chaîne	Vulnérabilités	Sévérité combinée
Manipulation de session cross-origin	CORS + CSRF manquant + SameSite=None	0.85
Path traversal Apache vers RCE	Apache 2.4.49 + /cgi-bin/	0.95
XSS vers vol de session	XSS réfléchi + pas HttpOnly + pas CSP	0.90
Contournement whitelist SSRF	Redirection ouverte + SSRF	0.85
Upload fichier vers web shell	Upload PHP + listing dir + exec PHP	0.95
JWT algorithm none + IDOR	JWT `alg:none` + IDOR	0.95

Analyse JS¶

Analyse le code JavaScript côté client pour les vulnérabilités. Inclut aussi des scénarios de faux positifs — des exemples où l'observation ressemble à une vulnérabilité mais n'en est pas. Cela entraîne les modèles à éviter le sur-reporting.