Vecteur Delta 16D¶
Chaque observation de sécurité dans PDX est encodée comme un vecteur à 16 dimensions, chaque dimension scorée entre 0.0 et 1.0. C'est ce qui rend les datasets PDX fondamentalement différents des systèmes de labels plats.
Les 16 dimensions¶
| # | Dimension | Ce qu'elle mesure | Valeur haute signifie |
|---|---|---|---|
| 1 | severity | Gravité brute | Découverte critique |
| 2 | confidence | Certitude du verdict | Plusieurs niveaux concordent |
| 3 | exploitability | Facilité d'exploitation réelle | Exploitable par un script-kiddie |
| 4 | auth_relevance | Impact sur l'authN/authZ | Contournement d'auth possible |
| 5 | data_exposure | Niveau de données sensibles exposées | PII, credentials, clés |
| 6 | injection_surface | Surface d'injection disponible | Multiples points d'injection |
| 7 | config_weakness | Faiblesse de configuration détectée | Config par défaut/faible |
| 8 | crypto_weakness | Faiblesse cryptographique | Crypto cassée ou faible |
| 9 | logic_flaw | Vulnérabilité de logique applicative | Contournement de logique métier |
| 10 | timing_anomaly | Différence temporelle exploitable | Canal latéral temporel |
| 11 | version_risk | Risque lié à une version vulnérable connue | CVE non patchée |
| 12 | chain_potential | Chaînabilité avec d'autres deltas | Utile dans une chaîne d'exploit |
| 13 | persistence | Capacité de persistance post-exploitation | Peut maintenir l'accès |
| 14 | noise_level | Probabilité de faux positif | Probablement faux positif |
| 15 | novelty | Nouveauté/originalité de la technique | Jamais vue auparavant |
| 16 | context_dependency | Influence du contexte sur l'exploitabilité | Dépendant de la stack |
Pourquoi 16 dimensions¶
Un scanner de vulnérabilités traditionnel produit : « XSS, sévérité : haute ». C'est un seul label.
Un delta PDX pour la même découverte encode : severity 0.8, confidence 0.7, exploitability 0.9, chain_potential 0.85 (car il y a aussi un cookie HttpOnly manquant), noise_level 0.15, novelty 0.3. Le modèle n'apprend pas juste « c'est un XSS » — il apprend la sémantique complète de l'observation.
Le même vecteur sert les deux flux d'entraînement :
- Défensif : un
noise_levelélevé signifie « attention, c'est peut-être un faux positif » - Offensif : un
chain_potentialélevé signifie « cette vulnérabilité seule est moyenne, mais combinée avec d'autres elle devient critique »
Vecteur d'empreinte (FP_LABELS)¶
En plus du vecteur delta, PDX capture aussi une empreinte à 16 dimensions de l'environnement cible :
| # | Dimension | Ce qu'elle mesure |
|---|---|---|
| 1 | stack_complexity | Complexité de la stack technologique |
| 2 | exposure_surface | Taille de la surface d'attaque externe |
| 3 | auth_sophistication | Qualité de l'implémentation d'auth |
| 4 | waf_strength | Efficacité du WAF/filtrage |
| 5 | patch_recency | Récence des patches |
| 6 | api_surface | Nombre d'endpoints API et exposition |
| 7 | crypto_maturity | Qualité de l'implémentation crypto |
| 8 | error_verbosity | Quantité d'info fuitée par les erreurs |
| 9 | session_strength | Qualité de la gestion de session |
| 10 | input_validation | Rigueur de la validation d'entrée |
| 11 | infrastructure_age | Ancienneté de l'infrastructure |
| 12 | monitoring_presence | Présence de monitoring détectée |
| 13 | cdn_proxy_layers | Couches CDN/proxy présentes |
| 14 | custom_code_ratio | Ratio code personnalisé vs framework |
| 15 | documentation_leak | Documentation interne exposée |
| 16 | historical_vuln_density | Densité historique de vulnérabilités |
Le produit croisé Delta × Empreinte crée un espace à 32 dimensions qui capture à la fois « ce qui a été trouvé » et « dans quel contexte » — permettant aux modèles d'apprendre que la même vulnérabilité a des implications différentes selon l'environnement cible.
Objectif de normalisation¶
L'objectif à long terme est d'établir le vecteur delta .pdx comme un standard ouvert pour les données d'entraînement en cybersécurité.