Vecteur Delta 16D¶

Chaque observation de sécurité dans PDX est encodée comme un vecteur à 16 dimensions, chaque dimension scorée entre 0.0 et 1.0. C'est ce qui rend les datasets PDX fondamentalement différents des systèmes de labels plats.

Les 16 dimensions¶

#	Dimension	Ce qu'elle mesure	Valeur haute signifie
1	`severity`	Gravité brute	Découverte critique
2	`confidence`	Certitude du verdict	Plusieurs niveaux concordent
3	`exploitability`	Facilité d'exploitation réelle	Exploitable par un script-kiddie
4	`auth_relevance`	Impact sur l'authN/authZ	Contournement d'auth possible
5	`data_exposure`	Niveau de données sensibles exposées	PII, credentials, clés
6	`injection_surface`	Surface d'injection disponible	Multiples points d'injection
7	`config_weakness`	Faiblesse de configuration détectée	Config par défaut/faible
8	`crypto_weakness`	Faiblesse cryptographique	Crypto cassée ou faible
9	`logic_flaw`	Vulnérabilité de logique applicative	Contournement de logique métier
10	`timing_anomaly`	Différence temporelle exploitable	Canal latéral temporel
11	`version_risk`	Risque lié à une version vulnérable connue	CVE non patchée
12	`chain_potential`	Chaînabilité avec d'autres deltas	Utile dans une chaîne d'exploit
13	`persistence`	Capacité de persistance post-exploitation	Peut maintenir l'accès
14	`noise_level`	Probabilité de faux positif	Probablement faux positif
15	`novelty`	Nouveauté/originalité de la technique	Jamais vue auparavant
16	`context_dependency`	Influence du contexte sur l'exploitabilité	Dépendant de la stack

Pourquoi 16 dimensions¶

Un scanner de vulnérabilités traditionnel produit : « XSS, sévérité : haute ». C'est un seul label.

Un delta PDX pour la même découverte encode : severity 0.8, confidence 0.7, exploitability 0.9, chain_potential 0.85 (car il y a aussi un cookie HttpOnly manquant), noise_level 0.15, novelty 0.3. Le modèle n'apprend pas juste « c'est un XSS » — il apprend la sémantique complète de l'observation.

Le même vecteur sert les deux flux d'entraînement :

Défensif : un noise_level élevé signifie « attention, c'est peut-être un faux positif »
Offensif : un chain_potential élevé signifie « cette vulnérabilité seule est moyenne, mais combinée avec d'autres elle devient critique »

Vecteur d'empreinte (FP_LABELS)¶

En plus du vecteur delta, PDX capture aussi une empreinte à 16 dimensions de l'environnement cible :

#	Dimension	Ce qu'elle mesure
1	`stack_complexity`	Complexité de la stack technologique
2	`exposure_surface`	Taille de la surface d'attaque externe
3	`auth_sophistication`	Qualité de l'implémentation d'auth
4	`waf_strength`	Efficacité du WAF/filtrage
5	`patch_recency`	Récence des patches
6	`api_surface`	Nombre d'endpoints API et exposition
7	`crypto_maturity`	Qualité de l'implémentation crypto
8	`error_verbosity`	Quantité d'info fuitée par les erreurs
9	`session_strength`	Qualité de la gestion de session
10	`input_validation`	Rigueur de la validation d'entrée
11	`infrastructure_age`	Ancienneté de l'infrastructure
12	`monitoring_presence`	Présence de monitoring détectée
13	`cdn_proxy_layers`	Couches CDN/proxy présentes
14	`custom_code_ratio`	Ratio code personnalisé vs framework
15	`documentation_leak`	Documentation interne exposée
16	`historical_vuln_density`	Densité historique de vulnérabilités

Le produit croisé Delta × Empreinte crée un espace à 32 dimensions qui capture à la fois « ce qui a été trouvé » et « dans quel contexte » — permettant aux modèles d'apprendre que la même vulnérabilité a des implications différentes selon l'environnement cible.

Objectif de normalisation¶

L'objectif à long terme est d'établir le vecteur delta .pdx comme un standard ouvert pour les données d'entraînement en cybersécurité.