Lokale LLMs mit Ollama — Open WebUI · Continue.dev-Integration
Llama / Qwen / DeepSeek lokal auf Mac und Windows ausführen. Kosten, Datenschutz, Offline — eine Alternative zu Cloud-LLMs.
Cloud-LLMs (Claude, GPT, Gemini) sind leistungsstark, haben aber Nachteile: monatliche Kosten, Datenschutz (Firmencode verlässt das Netzwerk) und Internetabhängigkeit. Wenn die eigene Maschine ein hinreichend großes Modell ausführen kann, wird der lokale Betrieb zur echten Alternative.
Dieser Leitfaden führt Llama 3.3 / Qwen 2.5 / DeepSeek-Coder und weitere Modelle auf macOS und Windows mit Ollama aus, ergänzt sie um eine ChatGPT-ähnliche UI via Open WebUI und integriert sie in VS Code über Continue.dev.
Zielgruppe: Entwicklerinnen und Entwickler, die täglich ein LLM nutzen und den lokalen Betrieb aus Kosten- oder Datenschutzgründen evaluieren wollen. Voraussetzungen: M1 Pro oder besser oder eine GPU mit mindestens 16 GB VRAM.
TL;DR
brew install ollamaoder herunterladen von ollama.comollama pull llama3.3:70b, oder das leichtereqwen2.5-coder:7bollama run qwen2.5-coder:7b→ chatten- UI gewünscht? Open WebUI (Docker — unter einer Minute)
- VS Code-Integration: Continue.dev installieren und Ollama in
~/.continue/config.jsonregistrieren
Voraussetzungen
- Mac: M1 Pro oder neuer + 16 GB+ Unified Memory (32 GB empfohlen)
- Windows / Linux: NVIDIA-GPU mit 8 GB+ VRAM (16 GB+ empfohlen), oder starke CPU + 32 GB+ RAM
- (Optional) Docker — für Open WebUI
1. Wann lokale LLMs passen
Geeignete Fälle
- Sensibler Code — Unternehmensrichtlinien verbieten Cloud-LLMs (Gesundheitswesen, Finanzen, Verteidigung)
- Hohe Wiederholungsrate — 1.000+ Anfragen/Tag summieren sich bei Cloud-Preisen erheblich
- Offline-Betrieb — Reisen, instabiles Internet
- Experimente — Modellvergleiche, Fine-Tuning
- Niedriglatenz-Automatisierung — Antwortschleifen unter 200 ms
Ungeeignete Fälle
- Höchste Ausgabequalität — Claude Opus / GPT-5-Niveau ist lokal noch nicht erreichbar
- Schwache Hardware — 8 GB Mac M1, 4 GB GPU — selbst 7B-Modelle laufen träge
- Multimodale Vielfalt — Bild- und Audio-Optionen sind lokal noch dünn
- Langer Kontext — Claudes 1M-Token-Fenster ist lokal kaum erreichbar
Realität: Ein lokales 70B-Modell erreicht bei einer Teilmenge von Aufgaben GPT-4-Niveau. Coding-Hilfe, Zusammenfassungen, Übersetzungen — gut. Komplexes Reasoning — Cloud gewinnt noch.
2. Ollama installieren
2.1 macOS
brew install ollamaOder .dmg von ollama.com/download.
Als GUI-App oder als Hintergrunddienst starten:
# Hintergrunddienst (empfohlen)
brew services start ollama2.2 Windows
winget install Ollama.OllamaOder ollama.com/download.
Nach der Installation erscheint das Ollama-Symbol im System-Tray. Das Programm läuft automatisch im Hintergrund.
2.3 Linux
curl -fsSL https://ollama.com/install.sh | sh2.4 Überprüfen
ollama --version # ollama version 0.x.x
curl http://localhost:11434/api/version
# {"version":"0.x.x"}3. Erstes Modell — ein leichter Coding-Assistent
Mit einem kleinen Modell beginnen — schnellerer Download und schnellere Antworten:
3.1 Qwen 2.5 Coder 7B
ollama pull qwen2.5-coder:7b # 4,7 GB
ollama run qwen2.5-coder:7bChat:
>>> Schreibe eine Python-Funktion zum Zusammenführen zweier sortierter Listen.
/bye zum Beenden.
3.2 Größere Modelle (bei entsprechender Hardware)
| Modell | Größe | Empfohlenes RAM | Verwendung |
|---|---|---|---|
qwen2.5-coder:7b | 4,7 GB | 16 GB | Schnelle Coding-Hilfe |
qwen2.5-coder:32b | 19 GB | 48 GB | Starkes Coding |
llama3.3:70b | 40 GB | 64 GB | Allgemein / stark |
deepseek-coder-v2:16b | 9 GB | 24 GB | Code-spezialisiert |
gemma2:9b | 5,5 GB | 16 GB | Ausgewogen |
phi3.5:3.8b | 2,2 GB | 8 GB | Leichtestes (funktioniert auf langsamen GPUs) |
ollama pull llama3.3:70b
ollama run llama3.3:70bDownload-Dauer = Modellgröße ÷ Bandbreite. Bei 1 Gbps ca. 6 Minuten für das 70B-Modell.
3.3 Modelle verwalten
ollama list # installierte Modelle
ollama rm qwen2.5-coder:7b # entfernen
ollama show llama3.3:70b # Metadaten4. Open WebUI — ChatGPT-ähnliche UI
Browser-UI statt CLI — Docker-Einrichtung in unter einer Minute.
4.1 Installieren
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainDocker-Einrichtung: /mac/docker-setup oder /windows/docker-wsl2.
4.2 Erste Nutzung
Browser → http://localhost:3000 → erstes Konto erstellen (nur lokal).
Ollama wird automatisch erkannt. Das gewünschte Modell im Dropdown oben links auswählen und chatten.
4.3 Stärken
- Gespeicherte Gesprächshistorie
- Markdown-Rendering + Code-Syntaxhervorhebung
- Parallele Unterhaltungen mit mehreren Modellen zum Vergleich
- Datei-Upload + RAG (optional)
5. VS Code-Integration — Continue.dev
5.1 Erweiterung installieren
VS Code-Erweiterungen:
- Continue (
Continue.continue)
Oder code --install-extension Continue.continue.
5.2 Ollama-Modelle registrieren
~/.continue/config.json (erstellen falls nicht vorhanden):
{
"models": [
{
"title": "Qwen Coder 7B",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
},
{
"title": "Llama 3.3 70B",
"provider": "ollama",
"model": "llama3.3:70b"
}
],
"tabAutocompleteModel": {
"title": "Qwen Coder 7B",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}5.3 Verwenden
In VS Code:
Cmd + I(Mac) /Ctrl + I(Win) — Inline-ChatCmd + L/Ctrl + L— Chat-Seitenleiste- Tab — Autovervollständigung (nutzt
tabAutocompleteModel)
Continue.dev ist eine Open-Source-Alternative zu Cursor und Copilot. Neben lokalen Modellen können auch Claude / GPT-API-Keys registriert werden.
6. Performance-Tuning
6.1 GPU zuerst (NVIDIA / Apple Silicon)
Ollama erkennt und nutzt die GPU automatisch. Bestätigen:
ollama ps
# NAME ID SIZE PROCESSOR
# qwen2.5-coder:7b ... 5 GB 100% GPUKeine GPU angezeigt:
- macOS: Apple Silicon wird automatisch erkannt (Intel Mac = nur CPU)
- NVIDIA: CUDA-Treiber prüfen (
nvidia-smi)
6.2 Modellgröße anpassen
Jedes Modell ist in Quantisierungsvarianten verfügbar (Geschwindigkeit ↔ Qualität):
ollama pull qwen2.5-coder:7b-instruct-q4_K_M # Standard (4-bit, empfohlen)
ollama pull qwen2.5-coder:7b-instruct-q8_0 # 8-bit (genauer, größer)
ollama pull qwen2.5-coder:7b-instruct-fp16 # volle Präzision (genaueste, größte)4-bit ist der empfohlene Standard — kaum merklicher Qualitätsverlust bei halbem Speicherverbrauch.
6.3 Kontextlänge anpassen
Das Standard-Kontextfenster beträgt 4K Token. Zum Erweitern:
ollama run qwen2.5-coder:7b
>>> /set parameter num_ctx 16384Oder eine Modelfile:
FROM qwen2.5-coder:7b
PARAMETER num_ctx 16384
Längerer Kontext = mehr Speicherbedarf + langsamere Antworten.
7. Kosten- / Stromvergleich
7.1 Cloud vs. lokal (grob monatlich)
| Nutzung | Claude Pro | Lokal (Ollama, inkl. Strom) |
|---|---|---|
| Leicht (~100 Prompts/Mo) | $20/Mo | M2 Pro Strom ~$3/Mo |
| Mittel (~1.000 Prompts/Mo) | $100/Mo (API) | ~$5/Mo |
| Schwer (~10.000 Prompts/Mo) | $500+/Mo (API) | ~$15/Mo |
Zu berücksichtigen sind die Anschaffungskosten der Hardware (M2 Pro 32 GB ca. $2.500). Der Break-even liegt selbst für Vielnutzer bei 1–2 Jahren.
7.2 Stromverbrauch (grob)
- M2 Pro unter Volllast: ~30 W → 24 h = 0,72 kWh/Tag → 22 kWh/Mo × $0,15 = $3,30
- NVIDIA 4090 unter Volllast: ~450 W → 24 h Volllast unrealistisch, aber bei starker Realnutzung ~$20–40/Mo
Lokale Modelle verbrauchen Strom nur bei tatsächlicher Nutzung. Im Leerlauf praktisch 0.
8. Überprüfen
# 1. Ollama funktioniert
ollama --version
curl http://localhost:11434/api/version
# 2. Modell installiert
ollama list
# 3. Antworttest
echo "Write hello world in Rust" | ollama run qwen2.5-coder:7b
# 4. Open WebUI (falls ausgeführt)
curl http://localhost:3000
# 5. Continue.dev
code . # In VS Code: Cmd+L → Modell auswählen → chatten9. Fehlerbehebung
ollama: command not found
- macOS: brew-Präfix im PATH (
/opt/homebrew/bin) - Windows: PowerShell neustarten
- Linux:
~/.ollama/binoder System-PATH
Antworten sehr langsam
ollama psausführen, um GPU-Nutzung zu prüfen. CPU bei 100% bedeutet: GPU wird nicht erkannt- macOS Intel: keine GPU-Beschleunigung — Apple Silicon empfohlen
- NVIDIA: CUDA-Treiber prüfen + Ollama neu starten
- Zu wenig RAM: Modellgröße ÷ 8 muss ≤ verfügbarem RAM sein, sonst leidet die Performance stark
„Out of memory"-Fehler
- Das Modell übersteigt den verfügbaren RAM / VRAM
- Kleineres Modell versuchen (
:3bstatt:7b) oder eine stärker quantisierte Variante (q4_K_M) - Andere Anwendungen schließen und erneut versuchen
Continue.dev erkennt Ollama-Modelle nicht
~/.continue/config.jsonvalidieren (jq . config.json)- VS Code neu starten
- Sicherstellen, dass Ollama läuft (
curl localhost:11434/api/version)
Externen Zugriff auf Open WebUI blockieren
- Standard: nur localhost — extern bereits blockiert
- Bei öffentlicher Exponierung
WEBUI_AUTH=Truesetzen (Pflicht-Registrierung)
Modell-Download unterbrochen (Netzwerkunterbrechung)
ollama pullerneut ausführen — der Download wird fortgesetzt~/.ollama/models/prüfen; beschädigte Dateien löschen und Download neu starten
10. Empfohlene Einstiegspunkte
Für Anfänger:
- Mac M2 Pro 16 GB:
qwen2.5-coder:7b+ Continue.dev - Mac M2 Pro 32 GB:
qwen2.5-coder:32b+ Continue.dev + Open WebUI - Windows + RTX 4090:
llama3.3:70b+ Open WebUI - Nur CPU 16 GB:
phi3.5:3.8b(langsam aber funktional)
Nach 3 Monaten die eigene Zufriedenheit mit dem Cloud-LLM vergleichen, das man andernfalls bezahlen würde — dann eine fundierte Entscheidung treffen.
11. Was als Nächstes kommt
- Claude Code einrichten — /ai-agents/claude-code — Cloud-Pendant
- Cursor einrichten — /ai-agents/cursor-setup — Cursor kann auch auf Ollama zeigen
- Multi-Tool-Workflow — /ai-agents/multi-tool-workflow
- MCP-Server — /ai-agents/mcp-servers — Ollama + MCP ist möglich
Referenzen
Changelog
- 2026-05-16: Erster Entwurf. Ollama-Installation + Modellvergleich + Open WebUI + Continue.dev-Integration + Perf-Tuning + Kostenvergleich + sechs Fehlerbehebungsfälle.