TL;DR Hermes Agent est un orchestrateur open source qui pilote Claude Code et Codex en parallèle depuis une interface unifiée. Conçu pour tourner sur VPS, il permet d'enchaîner des tâches longues sans surveillance humaine — benchmarks de LLMs, simulations, génération de code itérative.
- Installation en quelques commandes sur VPS ou machine locale sous Linux
- Orchestre Claude Code et Codex comme sous-agents indépendants via des skills natifs
- Idéal pour les workflows nocturnes : lancer des tests à 22h, lire les résultats à 5h du matin
La question revient souvent dans les cercles de développeurs qui jouent avec les agents IA : comment aller au-delà de l'assistant ponctuel pour construire quelque chose qui travaille vraiment à votre place ? Les benchmarks officiels des labs sont utiles, mais ils ne répondent pas à ce qu'on cherche réellement — est-ce que ce modèle peut recevoir une spécification en anglais, écrire du code fonctionnel, puis s'améliorer itérativement jusqu'à obtenir le meilleur résultat possible ? Hermes Agent répond précisément à ce type de besoin. Pas parce qu'il est magique, mais parce qu'il rend l'orchestration multi-agents accessible sans infrastructure complexe. Ce guide couvre l'installation, la configuration, et un cas d'usage réel : un simulateur de physique spatiale construit entièrement par des LLMs, testé automatiquement sur des dizaines de variantes.
Qu'est-ce que Hermes Agent et pourquoi l'utiliser ?
Hermes Agent est un orchestrateur open source qui agit comme un chef de projet pour d'autres agents IA. Là où Claude Code ou Codex travaillent chacun dans leur environnement isolé, Hermes peut les instancier simultanément, leur envoyer des prompts distincts, et récupérer leurs résultats de manière coordonnée.
La différence tient à un usage spécifique : quand on a besoin de comparer plusieurs modèles sur une même tâche, ou de lancer une série de simulations sans intervention humaine, un agent seul devient vite un goulot d'étranglement. Hermes agit comme un dispatcher — il ouvre des instances de Claude Code et de Codex, leur assigne des tâches, et consolide les résultats.
Il faut être honnête sur les limites : pour la grande majorité des tâches de développement quotidiennes, Claude Code ou Codex suffisent amplement. Hermes apporte une valeur réelle surtout lorsque le workflow implique plusieurs agents en parallèle ou des boucles d'itération longues sans surveillance. Sur les 40 heures environ qu'a pris la construction du benchmark décrit ici, Hermes n'est intervenu que sur quelques points de blocage spécifiques — le reste était du Codex pur.
Comment installer Hermes Agent : local ou VPS, que choisir ?
Hermes Agent s'installe en quelques commandes sur n'importe quelle machine Linux. L'installation manuelle reste accessible même sans expertise DevOps avancée, et c'est la voie recommandée pour comprendre ce qu'on déploie réellement.
Sur machine locale — un vieux laptop, un mini PC ou un Mac mini — le coût est nul. La limite est simple : la machine doit rester allumée pour les workflows nocturnes, ce qui pose des problèmes de fiabilité si elle s'endort ou tombe. Sur VPS (serveur privé virtuel), l'agent est disponible 24/7 sans gestion matérielle. Une configuration KVM2 avec 2 vCPUs, 8 Go de RAM et 100 Go NVMe suffit pour faire tourner un agent avec plusieurs sous-processus actifs. Le coût tourne autour de 9 € par mois.
Une fois le serveur provisionné sous Ubuntu, l'installation se résume à cloner le dépôt GitHub de Hermes, installer les dépendances via le gestionnaire inclus, puis configurer les clés API pour les modèles souhaités. Claude Code et Codex sont disponibles comme skills natifs dès l'installation — Hermes détecte automatiquement leur présence sur la machine. Les clés API sont les seules informations à saisir manuellement ; le reste de la configuration est géré par les scripts d'initialisation.
Les skills Hermes : comment Claude Code et Codex deviennent des sous-agents
Le concept de skill dans Hermes désigne un outil ou environnement que l'orchestrateur peut invoquer. Claude Code et Codex sont disponibles nativement ; des skills additionnels développés par la communauté couvrent d'autres cas d'usage, et l'écosystème s'élargit progressivement depuis la sortie initiale.
Quand on demande à Hermes d'ouvrir Claude Code et Codex et de les faire interagir sur une tâche commune, il lance deux instances indépendantes, se positionne comme l'utilisateur de chacune, et récupère les outputs. Ce n'est pas Hermes qui exécute le travail — ce sont les deux agents qui interagissent, Hermes servant de relais et de coordinateur.
Ce modèle ouvre des possibilités concrètes : faire valider du code généré par Codex par une instance Claude Code, ou faire tourner des variantes de prompt en parallèle pour identifier laquelle produit les meilleurs résultats. La coordination reste cependant séquentielle pour les échanges qui nécessitent un consensus entre agents — ce n'est pas une parallélisation native des allers-retours.
Benchmarker les LLMs sur du code itératif : construire un test maison fiable
Les benchmarks officiels (MMLU, HumanEval, etc.) souffrent d'un biais documenté : certains labs optimisent directement leurs modèles sur ces jeux de données pour maximiser leur score apparent. Un benchmark construit sur une tâche concrète et non publiée donne une mesure plus fiable des capacités réelles d'un modèle sur un problème précis.
Le benchmark GravityWell illustre cette approche. Le modèle reçoit une description en anglais d'un simulateur physique : quatre puits gravitationnels (soleils), des vaisseaux spatiaux avec propulsion à carburant limité, conservation de la quantité de mouvement, collisions entre vaisseaux. Il doit écrire du code pour piloter ces vaisseaux de manière à maximiser un score sur 20 itérations successives. Le programme final est ensuite évalué sur 100 seeds différentes — 100 configurations légèrement distinctes du simulateur — pour éliminer les effets de chance liés aux positions initiales.
Résultats observés sur les modèles testés :
| Modèle | Score max (20 itérations) | Observation |
|---|---|---|
| Claude Opus 4.5 | 276 | Progression marquée, apprentissage itératif clair |
| Claude Sonnet 4.6 | ~78 | Plafond atteint rapidement |
| Claude Sonnet 4.5 | Score modeste | Progression présente mais plafonnée |
| GPT-5.5 | Score bas (via OpenRouter) | Test non direct API — comparaison à refaire |
Un point méthodologique à noter : GPT-5.5 a été testé via OpenRouter plutôt que directement via l'API OpenAI, ce qui introduit potentiellement des différences de comportement. Les chiffres précis pour Grok 420, DeepSeek v4 Pro et Gemini 3.1 Pro Preview ne sont pas disponibles dans les données de cette analyse.
Workflow nocturne : déléguer le travail répétitif aux agents
L'un des avantages les moins souvent discutés des agents IA déployés sur VPS est leur disponibilité temporelle. Un agent sur machine locale s'arrête quand on ferme le laptop. Sur VPS, il enchaîne des tâches de 22h à 5h du matin sans intervention, sans ralentissement, sans perte d'état.
Sur le projet GravityWell, la journée est consacrée au travail collaboratif — construction de features, correction de bugs, ajout de mécaniques de jeu. Le soir, on lance la série de tests : une dizaine de modèles différents, 20 itérations chacun, 100 seeds d'évaluation. Les logs montrent des runs démarrant à 22h17, d'autres à 3h du matin. L'ensemble des résultats était prêt à 5h32.
Ce n'est pas de la science-fiction : c'est une application directe du fait que les agents IA n'ont pas besoin de sommeil. La vraie question est d'identifier quelles tâches se prêtent à cette délégation — des inputs bien définis, des outputs mesurables, un critère de succès clair. Les benchmarks de code en sont un exemple parfait. La génération créative ou la prise de décision stratégique, beaucoup moins.
FAQ
Hermes Agent est-il gratuit et open source ?
Oui, Hermes Agent est distribué sous licence open source et gratuit à utiliser. Il requiert des clés API pour les modèles sous-jacents (Claude, GPT), qui sont payants à l'usage. Les coûts varient selon le volume de tokens traités et le modèle utilisé — un weekend de tests intensifs représente typiquement quelques dizaines d'euros d'API.
Quelle différence entre Hermes Agent et OpenClaw ?
OpenClaw est l'un des premiers agents open source popularisés dans l'écosystème, parfois surnommé «claws». Hermes Agent est plus récent et se distingue par sa capacité à orchestrer d'autres agents (Claude Code, Codex) comme sous-agents indépendants. OpenClaw reste pertinent pour des workflows plus simples ou si l'on préfère un outil plus établi dans la communauté.
Peut-on utiliser Hermes Agent sans connaissances en administration système ?
L'installation manuelle nécessite de savoir utiliser un terminal et cloner un dépôt Git. Les fournisseurs VPS proposent des interfaces qui simplifient la configuration initiale du serveur. La courbe d'apprentissage est raisonnable pour quelqu'un à l'aise avec la ligne de commande — une installation propre prend une trentaine de minutes.
Claude Opus 4.5 est-il vraiment supérieur aux autres modèles pour le code itératif ?
Sur ce benchmark spécifique, Opus 4.5 atteint 276 points contre ~78 pour Sonnet 4.6 — un écart significatif. Mais un seul benchmark ne fait pas une vérité générale : il mesure précisément la capacité à améliorer du code sur 20 itérations dans un contexte de simulation physique. D'autres types de tâches donneraient des classements différents.
Comment Hermes Agent gère-t-il les erreurs et les crashes d'agents ?
Les détails précis du système de gestion d'erreurs de Hermes (retry logic, fallback, alertes) ne sont pas documentés dans les sources disponibles pour cette analyse. Dans la pratique, les workflows longue durée nécessitent une surveillance minimale — vérifier les logs au réveil reste une bonne habitude avant de lancer de nouveaux tests.
Peut-on créer ses propres skills pour Hermes Agent ?
La communauté développe des skills additionnels au-delà des outils natifs. La plateforme fonctionne sur un modèle d'extension : les skills de base incluent Claude Code et Codex, mais d'autres intégrations sont disponibles. La documentation officielle du projet décrit le format attendu pour créer un skill personnalisé.
À retenir
- Hermes Agent comme coordinateur, pas comme remplaçant : il n'invalide pas Claude Code ou Codex mais les orchestre. Pour la majorité des tâches, un agent seul suffit amplement.
- Le VPS change la donne pour les workflows automatisés : la disponibilité 24/7 est le vrai avantage — lancer des tests à 22h et lire les résultats à 5h du matin devient un workflow viable et reproductible.
- Les benchmarks maison ont une valeur méthodologique réelle : tester les LLMs sur des tâches que vous contrôlez entièrement — avec 20 itérations et 100 seeds d'évaluation — donne des informations que les benchmarks officiels ne fournissent pas.
- L'écart entre les tiers de modèles reste significatif : 276 points pour Opus 4.5 contre 78 pour Sonnet 4.6 sur une tâche de code itératif — le choix du modèle a un impact mesurable sur la qualité du résultat final.
- Le coût d'entrée est bas : Hermes est gratuit, un VPS KVM2 coûte environ 9 €/mois, et les coûts d'API dépendent de l'usage réel.