LLMFIT - Vind de perfecte LLM voor je hardware
- Jean-Christophe Miler
- Ai , Open source , Ontwikkelaars tools
- 17 maart 2026
Table of Contents
De juiste LLM voor je hardware vinden
Het lokaal draaien van grote taalmodellen is steeds populairder geworden, maar uitzoeken welke modellen daadwerkelijk werken op je specifieke hardware-configuratie kan een frustrerend trial-and-error proces zijn. Maak kennis met llmfit, een terminal-hulpmiddel dat het giswerk uit lokale LLM-implementatie haalt door je systeem te analyseren en modellen aan te bevelen die goed op je machine zullen draaien.
Wat is llmfit?
llmfit is een command-line tool die de RAM-, CPU- en GPU-mogelijkheden van je systeem detecteert en vervolgens honderden LLM-modellen op meerdere dimensies beoordeelt om je te vertellen welke daadwerkelijk goed op je hardware zullen draaien. Met meer dan 17.400 GitHub-sterren en 993 forks wordt het snel de go-to oplossing voor ontwikkelaars en AI-liefhebbers die modellen lokaal willen draaien.
- Hardware Detectie Identificeert automatisch je CPU-cores, RAM en GPU (NVIDIA, AMD, Apple Silicon, Intel Arc of Ascend)
- Multi-dimensionale Scoring Beoordeelt modellen op kwaliteit, snelheid, geschiktheid en contextlengte
- Dynamische Kwantisatie Selecteert het beste kwantisatieniveau dat in je beschikbare geheugen past
- Meerdere Providers Ondersteunt Ollama, llama.cpp, MLX en Docker Model Runner
- MoE-ondersteuning Behandelt Mixture-of-Experts architecturen zoals Mixtral en DeepSeek-V2 correct
Hoe het werkt
llmfit voert een uitgebreide analyse uit van je systeem en vergelijkt het met een database van honderden modellen:
- Hardware Detectie - Leest systeemspecificaties via sysinfo, detecteert GPU’s met nvidia-smi, rocm-smi of system_profiler
- Model Database - Vergelijkt je hardware met modellen van HuggingFace, waaronder Meta Llama, Mistral, Qwen, Gemma, Phi, DeepSeek en nog veel meer
- Dynamische Kwantisatie - Doorloopt kwantisatieniveaus (Q8_0 tot Q2_K) om de hoogste kwaliteit te vinden die in je geheugen past
- Multi-dimensionale Scoring - Beoordeelt elk model op Kwaliteit, Snelheid, Geschiktheid (geheugenefficiëntie) en Context-capaciteit
- Geschiktheidsanalyse - Bepaalt uitvoeringsmodi: GPU, MoE (expert offloading), CPU+GPU, of alleen CPU
Het scoringssysteem weegt dimensies verschillend afhankelijk van het gebruiksscenario. Bijvoorbeeld, Coderen geeft voorrang aan Snelheid, terwijl Redeneren de nadruk legt op Kwaliteit.
Installatie
Aan de slag gaan met llmfit is eenvoudig:
macOS/Linux:
brew install llmfit
Snelle installatie:
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Windows:
scoop install llmfit
Docker:
docker run ghcr.io/alexsjones/llmfit
llmfit gebruiken
Interactieve TUI (Standaard)
Voer gewoon uit:
llmfit
De TUI toont je systeemspecificaties bovenaan en toont modellen gerangschikt door samengestelde score. Navigeer met pijltoetsen of vim-stijl j/k, zoek met /, en pas filters toe met f voor geschiktheidsniveau of a voor beschikbaarheid.
CLI-modus
Voor gescript of geautomatiseerde workflows:
llmfit --cli
llmfit fit --perfect -n 5
llmfit recommend --json --use-case coding --limit 3
REST API
llmfit kan dienen als een REST API voor cluster-schedulers:
llmfit serve --host 0.0.0.0 --port 8787
curl "http://localhost:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"
Belangrijkste functies
- Multi-GPU-ondersteuning - Aggregateert VRAM over alle gedetecteerde GPU’s
- Snelheidsschatting - Gebruikt daadwerkelijke GPU-geheugenbandbreedte voor nauwkeurige doorvoer-voorspellingen
- Visuele modus - Selecteer meerdere modellen voor bulkvergelijking
- Planningsmodus - Keer de vraag om: “Welke hardware heb ik nodig voor dit model?”
- 6 Ingebouwde thema’s - Schakel tussen Dracula, Solarized, Nord, Monokai, Gruvbox of Standaard
- Modeldownload - Druk op
din TUI om modellen direct te downloaden via Ollama of llama.cpp
Waarom het belangrijk is
LLM’s lokaal draaien biedt privacy, kostencontrole en offline mogelijkheden, maar de instapdrempel is hoog geweest. llmfit verwijdert die drempel door het triviaal te maken om modellen te vinden die werken op je specifieke hardware — geen grote modelbestanden meer downloaden om erachter te komen dat ze niet in je VRAM passen.
Het project is geschreven in Rust voor prestaties, ondersteunt een indrukwekkend bereik van hardware-platforms en integreert naadloos met populaire lokale LLM-runtimes. Of je nu een high-end gaming-pc hebt met 24GB VRAM of een eenvoudige laptop met 8GB unified memory, llmfit toont je precies wat mogelijk is.