Aller au contenu

Vecteur Delta 16D

Chaque observation de sécurité dans PDX est encodée comme un vecteur à 16 dimensions, chaque dimension scorée entre 0.0 et 1.0. C'est ce qui rend les datasets PDX fondamentalement différents des systèmes de labels plats.

Les 16 dimensions

# Dimension Ce qu'elle mesure Valeur haute signifie
1 severity Gravité brute Découverte critique
2 confidence Certitude du verdict Plusieurs niveaux concordent
3 exploitability Facilité d'exploitation réelle Exploitable par un script-kiddie
4 auth_relevance Impact sur l'authN/authZ Contournement d'auth possible
5 data_exposure Niveau de données sensibles exposées PII, credentials, clés
6 injection_surface Surface d'injection disponible Multiples points d'injection
7 config_weakness Faiblesse de configuration détectée Config par défaut/faible
8 crypto_weakness Faiblesse cryptographique Crypto cassée ou faible
9 logic_flaw Vulnérabilité de logique applicative Contournement de logique métier
10 timing_anomaly Différence temporelle exploitable Canal latéral temporel
11 version_risk Risque lié à une version vulnérable connue CVE non patchée
12 chain_potential Chaînabilité avec d'autres deltas Utile dans une chaîne d'exploit
13 persistence Capacité de persistance post-exploitation Peut maintenir l'accès
14 noise_level Probabilité de faux positif Probablement faux positif
15 novelty Nouveauté/originalité de la technique Jamais vue auparavant
16 context_dependency Influence du contexte sur l'exploitabilité Dépendant de la stack

Pourquoi 16 dimensions

Un scanner de vulnérabilités traditionnel produit : « XSS, sévérité : haute ». C'est un seul label.

Un delta PDX pour la même découverte encode : severity 0.8, confidence 0.7, exploitability 0.9, chain_potential 0.85 (car il y a aussi un cookie HttpOnly manquant), noise_level 0.15, novelty 0.3. Le modèle n'apprend pas juste « c'est un XSS » — il apprend la sémantique complète de l'observation.

Le même vecteur sert les deux flux d'entraînement :

  • Défensif : un noise_level élevé signifie « attention, c'est peut-être un faux positif »
  • Offensif : un chain_potential élevé signifie « cette vulnérabilité seule est moyenne, mais combinée avec d'autres elle devient critique »

Vecteur d'empreinte (FP_LABELS)

En plus du vecteur delta, PDX capture aussi une empreinte à 16 dimensions de l'environnement cible :

# Dimension Ce qu'elle mesure
1 stack_complexity Complexité de la stack technologique
2 exposure_surface Taille de la surface d'attaque externe
3 auth_sophistication Qualité de l'implémentation d'auth
4 waf_strength Efficacité du WAF/filtrage
5 patch_recency Récence des patches
6 api_surface Nombre d'endpoints API et exposition
7 crypto_maturity Qualité de l'implémentation crypto
8 error_verbosity Quantité d'info fuitée par les erreurs
9 session_strength Qualité de la gestion de session
10 input_validation Rigueur de la validation d'entrée
11 infrastructure_age Ancienneté de l'infrastructure
12 monitoring_presence Présence de monitoring détectée
13 cdn_proxy_layers Couches CDN/proxy présentes
14 custom_code_ratio Ratio code personnalisé vs framework
15 documentation_leak Documentation interne exposée
16 historical_vuln_density Densité historique de vulnérabilités

Le produit croisé Delta × Empreinte crée un espace à 32 dimensions qui capture à la fois « ce qui a été trouvé » et « dans quel contexte » — permettant aux modèles d'apprendre que la même vulnérabilité a des implications différentes selon l'environnement cible.

Objectif de normalisation

L'objectif à long terme est d'établir le vecteur delta .pdx comme un standard ouvert pour les données d'entraînement en cybersécurité.