Aller au contenu

Générateurs d'entraînement

PDX inclut 7 générateurs de données d'entraînement, chacun produisant un format différent optimisé pour un objectif de fine-tuning spécifique.

Vue d'ensemble

Générateur Format Source Objectif
SFT détection Instruction → sortie Défensif Enseigner l'identification des patterns d'attaque
DPO leurre Choisi vs rejeté Défensif Mesurer quel persona retient le mieux les attaquants
SFT attaque Instruction → sortie Offensif Reconstruire les TTPs offensifs
RAFT kill chain Séquence multi-étapes Offensif Séquences complètes de post-exploitation
ReAct dual Pensée/Action/Observation Combiné Analyse à double perspective
CoT Chaîne de raisonnement Les deux 5+ étapes avec références CWE/CVE
Analyse JS Code → verdict Offensif Détection de vulnérabilités côté client

SFT détection (défensif)

Génère des paires instruction/sortie enseignant à un modèle à analyser les commandes SSH à travers un prisme défensif.

{
  "instruction": "Un utilisateur SSH exécute : `cat /etc/shadow`. Identifiez la tactique MITRE ATT&CK et le niveau de menace.",
  "output": "Tactique : credential-access\nTechnique : Extraction de credentials depuis le fichier shadow\nMenace : Haute\nAction : Logger, alerter, surveiller l'escalade de privilèges."
}

DPO efficacité des leurres (défensif)

Génère des paires de préférence mesurant la qualité d'engagement des personas. La réponse « choisie » fournit une analyse détaillée ; la « rejetée » est superficielle.

SFT chaînes d'attaque (offensif)

Convertit les TTPs observés en instructions de pentest structurées.

RAFT kill chains (offensif)

Génère des séquences d'exploitation complètes multi-étapes à partir de sessions réelles avec 5+ commandes.

ReAct dual-perspective (combiné)

Analyse la même séquence de commandes sous les perspectives offensive et défensive au format Pensée → Action → Observation → Conclusion.

CoT — Chaîne de raisonnement

Produit des chaînes de raisonnement détaillées avec minimum 5 étapes logiques, référençant CWEs et CVEs. Inclut des templates de chaînes — séquences d'exploitation multi-vulnérabilités pré-construites :

Nom de chaîne Vulnérabilités Sévérité combinée
Manipulation de session cross-origin CORS + CSRF manquant + SameSite=None 0.85
Path traversal Apache vers RCE Apache 2.4.49 + /cgi-bin/ 0.95
XSS vers vol de session XSS réfléchi + pas HttpOnly + pas CSP 0.90
Contournement whitelist SSRF Redirection ouverte + SSRF 0.85
Upload fichier vers web shell Upload PHP + listing dir + exec PHP 0.95
JWT algorithm none + IDOR JWT alg:none + IDOR 0.95

Analyse JS

Analyse le code JavaScript côté client pour les vulnérabilités. Inclut aussi des scénarios de faux positifs — des exemples où l'observation ressemble à une vulnérabilité mais n'en est pas. Cela entraîne les modèles à éviter le sur-reporting.