LLMFIT - Vind de perfecte LLM voor je hardware

Table of Contents

De juiste LLM voor je hardware vinden

Het lokaal draaien van grote taalmodellen is steeds populairder geworden, maar uitzoeken welke modellen daadwerkelijk werken op je specifieke hardware-configuratie kan een frustrerend trial-and-error proces zijn. Maak kennis met llmfit, een terminal-hulpmiddel dat het giswerk uit lokale LLM-implementatie haalt door je systeem te analyseren en modellen aan te bevelen die goed op je machine zullen draaien.

Wat is llmfit?

llmfit is een command-line tool die de RAM-, CPU- en GPU-mogelijkheden van je systeem detecteert en vervolgens honderden LLM-modellen op meerdere dimensies beoordeelt om je te vertellen welke daadwerkelijk goed op je hardware zullen draaien. Met meer dan 17.400 GitHub-sterren en 993 forks wordt het snel de go-to oplossing voor ontwikkelaars en AI-liefhebbers die modellen lokaal willen draaien.

Hardware Detectie Identificeert automatisch je CPU-cores, RAM en GPU (NVIDIA, AMD, Apple Silicon, Intel Arc of Ascend)
Multi-dimensionale Scoring Beoordeelt modellen op kwaliteit, snelheid, geschiktheid en contextlengte
Dynamische Kwantisatie Selecteert het beste kwantisatieniveau dat in je beschikbare geheugen past
Meerdere Providers Ondersteunt Ollama, llama.cpp, MLX en Docker Model Runner
MoE-ondersteuning Behandelt Mixture-of-Experts architecturen zoals Mixtral en DeepSeek-V2 correct

Hoe het werkt

llmfit voert een uitgebreide analyse uit van je systeem en vergelijkt het met een database van honderden modellen:

Hardware Detectie - Leest systeemspecificaties via sysinfo, detecteert GPU’s met nvidia-smi, rocm-smi of system_profiler
Model Database - Vergelijkt je hardware met modellen van HuggingFace, waaronder Meta Llama, Mistral, Qwen, Gemma, Phi, DeepSeek en nog veel meer
Dynamische Kwantisatie - Doorloopt kwantisatieniveaus (Q8_0 tot Q2_K) om de hoogste kwaliteit te vinden die in je geheugen past
Multi-dimensionale Scoring - Beoordeelt elk model op Kwaliteit, Snelheid, Geschiktheid (geheugenefficiëntie) en Context-capaciteit
Geschiktheidsanalyse - Bepaalt uitvoeringsmodi: GPU, MoE (expert offloading), CPU+GPU, of alleen CPU

Het scoringssysteem weegt dimensies verschillend afhankelijk van het gebruiksscenario. Bijvoorbeeld, Coderen geeft voorrang aan Snelheid, terwijl Redeneren de nadruk legt op Kwaliteit.

Installatie

Aan de slag gaan met llmfit is eenvoudig:

macOS/Linux:

brew install llmfit

Snelle installatie:

curl -fsSL https://llmfit.axjns.dev/install.sh | sh

Windows:

scoop install llmfit

Docker:

docker run ghcr.io/alexsjones/llmfit

llmfit gebruiken

Interactieve TUI (Standaard)

Voer gewoon uit:

llmfit

De TUI toont je systeemspecificaties bovenaan en toont modellen gerangschikt door samengestelde score. Navigeer met pijltoetsen of vim-stijl j/k, zoek met /, en pas filters toe met f voor geschiktheidsniveau of a voor beschikbaarheid.

CLI-modus

Voor gescript of geautomatiseerde workflows:

llmfit --cli
llmfit fit --perfect -n 5
llmfit recommend --json --use-case coding --limit 3

REST API

llmfit kan dienen als een REST API voor cluster-schedulers:

llmfit serve --host 0.0.0.0 --port 8787
curl "http://localhost:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"

Belangrijkste functies

Multi-GPU-ondersteuning - Aggregateert VRAM over alle gedetecteerde GPU’s
Snelheidsschatting - Gebruikt daadwerkelijke GPU-geheugenbandbreedte voor nauwkeurige doorvoer-voorspellingen
Visuele modus - Selecteer meerdere modellen voor bulkvergelijking
Planningsmodus - Keer de vraag om: “Welke hardware heb ik nodig voor dit model?”
6 Ingebouwde thema’s - Schakel tussen Dracula, Solarized, Nord, Monokai, Gruvbox of Standaard
Modeldownload - Druk op d in TUI om modellen direct te downloaden via Ollama of llama.cpp

Waarom het belangrijk is

LLM’s lokaal draaien biedt privacy, kostencontrole en offline mogelijkheden, maar de instapdrempel is hoog geweest. llmfit verwijdert die drempel door het triviaal te maken om modellen te vinden die werken op je specifieke hardware — geen grote modelbestanden meer downloaden om erachter te komen dat ze niet in je VRAM passen.

Het project is geschreven in Rust voor prestaties, ondersteunt een indrukwekkend bereik van hardware-platforms en integreert naadloos met populaire lokale LLM-runtimes. Of je nu een high-end gaming-pc hebt met 24GB VRAM of een eenvoudige laptop met 8GB unified memory, llmfit toont je precies wat mogelijk is.

Bekijk op GitHub Aan de slag