LLMFIT - Trouvez le LLM parfait pour votre matériel
- Jean-Christophe Miler
- Ia , Open source , Outils de développement
- 18 mars 2026
Table of Contents
Trouver le bon LLM pour votre matériel
Exécuter des modèles de langage volumineux en local est devenu de plus en plus populaire, mais déterminer quels modèles fonctionneront réellement sur votre configuration matérielle spécifique peut être un processus frustrant de trial-and-error. Entrez llmfit, un outil terminal qui élimine les conjectures du déploiement de LLM local en analysant votre système et en recommandant les modèles qui fonctionneront bien sur votre machine.
Qu’est-ce que llmfit ?
llmfit est un outil en ligne de commande qui détecte les capacités RAM, CPU et GPU de votre système, puis évalue des centaines de modèles LLM sur plusieurs dimensions pour vous indiquer lesquels fonctionneront réellement sur votre matériel. Avec plus de 17 400 étoiles GitHub et 993 forks, il devient rapidement la solution de référence pour les développeurs et les passionnés d’IA qui souhaitent exécuter des modèles en local.
- Détection du matériel Identifie automatiquement vos cœurs CPU, votre RAM et votre GPU (NVIDIA, AMD, Apple Silicon, Intel Arc ou Ascend)
- Évaluation multi-dimensionnelle Évalue les modèles sur la qualité, la vitesse, l’adaptation et la longueur de contexte
- Quantification dynamique Sélectionne le meilleur niveau de quantification qui correspond à votre mémoire disponible
- Multiples fournisseurs Supporte Ollama, llama.cpp, MLX et Docker Model Runner
- Support MoE Gère correctement les architectures Mixture-of-Experts comme Mixtral et DeepSeek-V2
Comment ça marche
llmfit effectue une analyse complète de votre système et le compare à une base de données de centaines de modèles :
- Détection du matériel - Lit les spécifications système via sysinfo, détecte les GPU en utilisant nvidia-smi, rocm-smi ou system_profiler
- Base de données des modèles - Compare votre matériel avec les modèles provenant de HuggingFace, incluant Meta Llama, Mistral, Qwen, Gemma, Phi, DeepSeek, et bien d’autres
- Quantification dynamique - Parcourt les niveaux de quantification (Q8_0 à Q2_K) pour trouver la plus haute qualité qui correspond à votre mémoire
- Évaluation multi-dimensionnelle - Note chaque modèle sur la Qualité, la Vitesse, l’Adaptabilité (efficacité mémoire) et la capacité de contexte
- Analyse d’adaptation - Détermine les modes d’exécution : GPU, MoE (déchargement d’experts), CPU+GPU, ou CPU uniquement
Le système de pondération diffère selon le cas d’utilisation. Par exemple, le codage privilégie la Vitesse, tandis que le raisonnement met l’accent sur la Qualité.
Installation
Commencer avec llmfit est simple :
macOS/Linux :
brew install llmfit
Installation rapide :
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Windows :
scoop install llmfit
Docker :
docker run ghcr.io/alexsjones/llmfit
Utiliser llmfit
TUI interactive (par défaut)
Il suffit de lancer :
llmfit
Le TUI affiche vos spécifications système en haut et montre les modèles classés par score composite. Naviguez avec les touches fléchées ou le style vim j/k, recherchez avec /, et appliquez des filtres avec f pour le niveau d’adaptation ou a pour la disponibilité.
Mode CLI
Pour les workflows scriptés ou automatisés :
llmfit --cli
llmfit fit --perfect -n 5
llmfit recommend --json --use-case coding --limit 3
API REST
llmfit peut servir d’API REST pour les ordonnanceurs de clusters :
llmfit serve --host 0.0.0.0 --port 8787
curl "http://localhost:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"
Fonctionnalités clés
- Support Multi-GPU - Agrège la VRAM sur tous les GPU détectés
- Estimation de vitesse - Utilise la bande passante mémoire GPU réelle pour des prédictions de débit précises
- Mode Visuel - Sélectionnez plusieurs modèles pour une comparaison en masse
- Mode Plan - Inversez la question : “De quel matériel ai-je besoin pour ce modèle ?”
- 6 Thèmes intégrés - Parcourez Dracula, Solarized, Nord, Monokai, Gruvbox ou Default
- Téléchargement de modèles - Appuyez sur
ddans le TUI pour télécharger des modèles directement via Ollama ou llama.cpp
Pourquoi c’est important
Exécuter des LLM en local offre intimité, contrôle des coûts et capacité hors ligne, mais la barrière d’entrée a été élevée. llmfit supprime cette barrière en rendant trivial de trouver des modèles qui fonctionnent sur votre matériel spécifique — plus besoin de télécharger de gros fichiers模型 pour découvrir qu’ils ne rentrent pas dans votre VRAM.
Le projet est écrit en Rust pour la performance, supporte une impressionnante gamme de plateformes matérielles, et s’intègre parfaitement avec les runtimes LLM locaux populaires. Que vous ayez un PC gaming haut de gamme avec 24 Go de VRAM ou un humble ordinateur portable avec 8 Go de mémoire unifiée, llmfit vous montrera exactement ce qui est possible.