📁 Aperçu général du dépôt
- GLM‑4.5 est un modèle open‑source de Z.ai (anciennement Zhipu AI), conçu pour alimenter des agents intelligents. Il dispose de 355 milliards de paramètres au total, dont 32 milliards actifs par appel, tandis que sa version plus compacte, GLM‑4.5‑Air, embarque 106 milliards de paramètres, avec 12 milliards actifsThe Economic Times+5Hugging Face+5Hugging Face+5.
- Le code est publié sous licence MIT / Apache‑2.0, autorisant un usage commercial et secondaireGitHub+1GitHub+1.
⚙️ Architectures et fonctionnalités clés
- Architecture Mixture‑of‑Experts (MoE) : utilisée pour activer efficacement un sous-ensemble d’experts, ce qui optimise les performances par rapport à la taille du modèlesiliconflow.com.
- Hybrid reasoning (raisonnement hybride) : deux modes d’inférence :
- Thinking mode pour le raisonnement complexe et l’utilisation d’outils.
- Non‑Thinking mode pour des réponses instantanées.
- Mode activé par défaut via le paramètre thinking.typez.ai+5Hugging Face+5Hugging Face+5docs.z.ai+1GitHub+1.
- Longue longueur de contexte : supporte jusqu’à 128 000 tokens, avec un output maximal de 96 000 tokensdocs.z.ai.
- Invocation native d’API / outils : idéal pour les agents logiciels, la navigation web, le développement front-end et la génération de code structurel ou créatifsiliconflow.com+1docs.z.ai+1.
🧪 Performances et benchmarking
Évalué sur 12 benchmarks standard couvrant les agentic tasks (3), reasoning (7) et coding (2)z.aiHugging Face :
Modèle | Score global | Classement global |
---|---|---|
GLM‑4.5 (plein) | 63.2 | 3ᵉ place |
GLM‑4.5‑Air | ≈ 59.8 | Compétitif |
- En agentic tasks comme TAU‑bench et BFCL‑v3, il égalerait Claude 4 Sonnet.
- Sur BrowseComp, GLM‑4.5 obtient environ 26.4 % de bonnes réponses, contre 18.8 % pour Claude 4 OpusReddit+15z.ai+15Hugging Face+15.
Sur les benchmarks de raisonnement et mathématiques (MMLU Pro, MATH 500, etc.), GLM‑4.5 affiche des scores souvent autour de 80‑98 % selon les épreuves, un niveau de performance comparable aux leaders industrielsz.ai+1docs.z.ai+1.
En mobilité de code (SWE‑bench Verified, Terminal‑Bench), GLM‑4.5 est performant (score ≈ 64.2 % et 37.5 %, respectivement), et il domine sur ces tâches les modèles open-source concurrents comme Qwen3‑Coder ou Kimi‑K2 pour fiabilité et robustesse d’appel d’outils (≈ 90 % de réussite)Medium+2z.ai+2docs.z.ai+2.
💰 Coût et accessibilité
- Modèle open‑source complet et mis à disposition sur Hugging Face (GLM-4.5, FP8, Air, etc.), disponible à télécharger ou tester via Hugging Face ou ModelScopeHugging Face+1GitHub+1.
- Accessibles via API Fireworks ou plateforme Z.ai (globale / Chine), avec un tarif compétitif : environ ¥0.8 (USD ≈ 0.11 €) par million de tokens d’entrée et ¥2 (~0.28 €) par million de tokens de sortieMedium+4Fireworks AI+4docs.z.ai+4.
📌 À retenir
- GLM‑4.5 se positionne comme un modèle de base puissant, efficace et rentable pour des applications nécessitant des capacités de raisonnement, de génération de code et d’agents intelligents.
- Air, sa version plus légère, rend le modèle utilisable sur des machines moins puissantes tout en conservant une grande efficacité.
- Sa longue longueur de contexte, son support de la génération structurée, du streaming, de l’appel d’outils externes et de l’inférence hybride en font un outil de choix pour des agents conversationnels avancés.