FAQ¶

Général¶

HYDRA est-il légal à déployer ?

Oui — un honeypot est un serveur que vous possédez, exposé sur internet pour attirer les connexions. Vous n'attaquez personne ; vous observez qui vous attaque. Tous les credentials leurres sont fictifs et non fonctionnels. Cependant, vérifiez toujours les lois de votre juridiction concernant la collecte de données et la surveillance. Dans l'UE, le RGPD s'applique aux adresses IP — réfléchissez soigneusement à vos politiques de logging.

Combien ça coûte à faire tourner ?

Le VPS coûte ~5–10€/mois (1 vCPU, 1 Go RAM). Le tier gratuit de l'API Groq gère un trafic modéré. Sous trafic bot intense, vous pourriez atteindre les limites de taux — le tier payant Groq ou le passage à un LLM local (via Ollama) sont des alternatives. Pas de GPU nécessaire sur le VPS.

Que se passe-t-il si l'API Groq tombe ?

Les commandes built-in (65+) continuent de fonctionner sans aucune dépendance API. Seules les commandes inconnues nécessitant la génération LLM échoueraient. En pratique, la plupart du trafic bot ne déclenche que des commandes built-in.

Technique¶

Pourquoi Groq et pas OpenAI/Anthropic ?

La vitesse. La latence d'inférence de Groq est de 50–100ms pour llama-3.3-70b, contre 500–2000ms pour des modèles équivalents chez d'autres fournisseurs. Dans un honeypot, la latence de réponse doit sembler naturelle.

Les attaquants peuvent-ils s'échapper de HYDRA ?

Non. HYDRA n'exécute pas de vraies commandes — tout est simulé. Le VFS est une structure de données en mémoire, pas un vrai système de fichiers. Les commandes réseau (ssh, scp, wget) sont interceptées et produisent une sortie simulée. Il n'y a aucun moyen d'atteindre l'OS hôte.

Quelle est la différence entre .pdx et STIX/SARIF ?

STIX et SARIF sont des formats de reporting — ils décrivent des findings pour des lecteurs humains. Le format .pdx est un format d'entraînement — chaque observation porte un vecteur à 16 dimensions dont un modèle peut apprendre.

Comment les tags MITRE ATT&CK sont-ils assignés ?

Via 20+ patterns regex/heuristiques dans le DataRouter. Par exemple, cat /etc/shadow correspond à la tactique credential-access, find / -perm -4000 correspond à privilege-escalation.

Données et vie privée¶

HYDRA stocke-t-il les adresses IP des attaquants ?

Oui — les adresses IP sont loguées dans les fichiers JSONL de session. Si vous devez vous conformer au RGPD, vous pouvez hasher ou anonymiser les IPs en modifiant la configuration du logger.

Les credentials leurres sont-ils réels ?

Non. Toutes les clés AWS, keypairs Solana, mots de passe de bases de données et autres credentials dans les personas de HYDRA sont complètement fictifs. C'est une exigence éthique fondamentale.

Pipeline PDX¶

Pourquoi 7 générateurs ?

Différents objectifs de fine-tuning nécessitent différents formats de données. SFT enseigne les associations factuelles. DPO enseigne les préférences. RAFT enseigne le raisonnement multi-étapes. ReAct enseigne l'analyse dual-perspective. Un modèle fine-tuné sur tous les formats surpasse celui entraîné uniquement sur SFT.

Comment fonctionne l'ordonnancement curriculaire ?

Les entrées sont triées du simple au complexe : observations à commande unique d'abord, puis séquences multi-étapes, puis kill chains complexes, et enfin cas limites. Les modèles convergent plus vite quand ils apprennent les patterns faciles avant les difficiles.

C'est quoi la décroissance à 90 jours ?

Les données d'entraînement plus anciennes perdent progressivement du poids. Une vulnérabilité observée il y a 6 mois est moins pertinente qu'une observée hier. Les observations rares et à haute valeur (comme l'injection GLaDOS) utilisent une décroissance négative — elles deviennent plus importantes au fil du temps.