Fine-tuning¶

PDX génère des datasets d'entraînement pour fine-tuner des LLMs pour des tâches de cybersécurité — défensives (détection, alerte) et offensives (assistance pentest, reconstruction de TTPs).

Prérequis¶

Ressource	Minimum	Recommandé
GPU VRAM	8 Go	16 Go+
RAM	16 Go	32 Go
Disque	20 Go	50 Go
Framework	Unsloth	Unsloth

Modèles de base supportés¶

Modèle	Taille	Meilleur pour
Qwen 2.5	7B / 14B	Itération rapide, bon multilingue
Llama 3.3	8B / 70B	Focalisé anglais, raisonnement solide

Fine-tune rapide¶

python training/finetune_pdx.py \
  --dataset training_output/data_router/defensive/sft_detection_patterns.jsonl \
  --model qwen \
  --epochs 3 \
  --rank 16

Options¶

Flag	Défaut	Description
`--dataset`	—	Chemin vers les données JSONL
`--model`	`qwen`	Modèle de base (`qwen` ou `llama`)
`--epochs`	3	Époques d'entraînement
`--rank`	16	Rang LoRA (plus haut = plus de capacité, plus de VRAM)
`--resume`	false	Reprendre depuis un checkpoint

Entraîner un modèle défensif¶

python -m pdx.training.data_router generate --defensive

python training/finetune_pdx.py \
  --dataset training_output/data_router/defensive/sft_detection_patterns.jsonl \
  --model qwen --epochs 5 --rank 16

Après l'entraînement, le modèle peut identifier les tactiques MITRE ATT&CK à partir de séquences de commandes SSH, scorer le niveau de menace et évaluer l'efficacité des personas.

Entraîner un modèle offensif¶

python -m pdx.training.data_router generate --offensive

python training/finetune_pdx.py \
  --dataset training_output/data_router/offensive/sft_attack_chains.jsonl \
  --model llama --epochs 5 --rank 32

Après l'entraînement, le modèle peut reconstruire des séquences de post-exploitation, suggérer les prochaines étapes d'un pentest et mapper les commandes vers les techniques MITRE ATT&CK.

Entraîner un modèle dual-perspective¶

python -m pdx.training.data_router generate --combined

python training/finetune_pdx.py \
  --dataset training_output/data_router/combined/react_dual_perspective.jsonl \
  --model qwen --epochs 5 --rank 32

Cela produit un modèle capable d'analyser la même séquence de commandes sous les perspectives offensive et défensive — la sortie la plus unique du pipeline PDX.

Gestion VRAM¶

Le script inclut des vérifications automatiques de sécurité VRAM. Si Ollama tourne, le script vous avertira — Ollama et le fine-tuning se disputent la VRAM.

Pour VRAM limitée (8 Go)

Utilisez --rank 8 et --model qwen (7B). Cela tient dans 6 Go de VRAM avec de la place pour le batch d'entraînement.