LLMFIT - Trouvez le LLM parfait pour votre matériel

LLMFIT - Trouvez le LLM parfait pour votre matériel

Table of Contents

Trouver le bon LLM pour votre matériel

Exécuter des modèles de langage volumineux en local est devenu de plus en plus populaire, mais déterminer quels modèles fonctionneront réellement sur votre configuration matérielle spécifique peut être un processus frustrant de trial-and-error. Entrez llmfit, un outil terminal qui élimine les conjectures du déploiement de LLM local en analysant votre système et en recommandant les modèles qui fonctionneront bien sur votre machine.

Qu’est-ce que llmfit ?

llmfit est un outil en ligne de commande qui détecte les capacités RAM, CPU et GPU de votre système, puis évalue des centaines de modèles LLM sur plusieurs dimensions pour vous indiquer lesquels fonctionneront réellement sur votre matériel. Avec plus de 17 400 étoiles GitHub et 993 forks, il devient rapidement la solution de référence pour les développeurs et les passionnés d’IA qui souhaitent exécuter des modèles en local.

  • Détection du matériel Identifie automatiquement vos cœurs CPU, votre RAM et votre GPU (NVIDIA, AMD, Apple Silicon, Intel Arc ou Ascend)
  • Évaluation multi-dimensionnelle Évalue les modèles sur la qualité, la vitesse, l’adaptation et la longueur de contexte
  • Quantification dynamique Sélectionne le meilleur niveau de quantification qui correspond à votre mémoire disponible
  • Multiples fournisseurs Supporte Ollama, llama.cpp, MLX et Docker Model Runner
  • Support MoE Gère correctement les architectures Mixture-of-Experts comme Mixtral et DeepSeek-V2

Comment ça marche

llmfit effectue une analyse complète de votre système et le compare à une base de données de centaines de modèles :

  1. Détection du matériel - Lit les spécifications système via sysinfo, détecte les GPU en utilisant nvidia-smi, rocm-smi ou system_profiler
  2. Base de données des modèles - Compare votre matériel avec les modèles provenant de HuggingFace, incluant Meta Llama, Mistral, Qwen, Gemma, Phi, DeepSeek, et bien d’autres
  3. Quantification dynamique - Parcourt les niveaux de quantification (Q8_0 à Q2_K) pour trouver la plus haute qualité qui correspond à votre mémoire
  4. Évaluation multi-dimensionnelle - Note chaque modèle sur la Qualité, la Vitesse, l’Adaptabilité (efficacité mémoire) et la capacité de contexte
  5. Analyse d’adaptation - Détermine les modes d’exécution : GPU, MoE (déchargement d’experts), CPU+GPU, ou CPU uniquement

Le système de pondération diffère selon le cas d’utilisation. Par exemple, le codage privilégie la Vitesse, tandis que le raisonnement met l’accent sur la Qualité.

Installation

Commencer avec llmfit est simple :

macOS/Linux :

brew install llmfit

Installation rapide :

curl -fsSL https://llmfit.axjns.dev/install.sh | sh

Windows :

scoop install llmfit

Docker :

docker run ghcr.io/alexsjones/llmfit

Utiliser llmfit

TUI interactive (par défaut)

Il suffit de lancer :

llmfit

Le TUI affiche vos spécifications système en haut et montre les modèles classés par score composite. Naviguez avec les touches fléchées ou le style vim j/k, recherchez avec /, et appliquez des filtres avec f pour le niveau d’adaptation ou a pour la disponibilité.

Mode CLI

Pour les workflows scriptés ou automatisés :

llmfit --cli
llmfit fit --perfect -n 5
llmfit recommend --json --use-case coding --limit 3

API REST

llmfit peut servir d’API REST pour les ordonnanceurs de clusters :

llmfit serve --host 0.0.0.0 --port 8787
curl "http://localhost:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"
Haruna

Fonctionnalités clés

  • Support Multi-GPU - Agrège la VRAM sur tous les GPU détectés
  • Estimation de vitesse - Utilise la bande passante mémoire GPU réelle pour des prédictions de débit précises
  • Mode Visuel - Sélectionnez plusieurs modèles pour une comparaison en masse
  • Mode Plan - Inversez la question : “De quel matériel ai-je besoin pour ce modèle ?”
  • 6 Thèmes intégrés - Parcourez Dracula, Solarized, Nord, Monokai, Gruvbox ou Default
  • Téléchargement de modèles - Appuyez sur d dans le TUI pour télécharger des modèles directement via Ollama ou llama.cpp

Pourquoi c’est important

Exécuter des LLM en local offre intimité, contrôle des coûts et capacité hors ligne, mais la barrière d’entrée a été élevée. llmfit supprime cette barrière en rendant trivial de trouver des modèles qui fonctionnent sur votre matériel spécifique — plus besoin de télécharger de gros fichiers模型 pour découvrir qu’ils ne rentrent pas dans votre VRAM.

Le projet est écrit en Rust pour la performance, supporte une impressionnante gamme de plateformes matérielles, et s’intègre parfaitement avec les runtimes LLM locaux populaires. Que vous ayez un PC gaming haut de gamme avec 24 Go de VRAM ou un humble ordinateur portable avec 8 Go de mémoire unifiée, llmfit vous montrera exactement ce qui est possible.

Voir sur GitHub Commencer

Share :
comments powered by Disqus