Llama / Qwen / DeepSeek lokal auf Mac und Windows ausführen. Kosten, Datenschutz, Offline — eine Alternative zu Cloud-LLMs.

Cloud-LLMs (Claude, GPT, Gemini) sind leistungsstark, haben aber Nachteile: monatliche Kosten, Datenschutz (Firmencode verlässt das Netzwerk) und Internetabhängigkeit. Wenn die eigene Maschine ein hinreichend großes Modell ausführen kann, wird der lokale Betrieb zur echten Alternative.

Dieser Leitfaden führt Llama 3.3 / Qwen 2.5 / DeepSeek-Coder und weitere Modelle auf macOS und Windows mit Ollama aus, ergänzt sie um eine ChatGPT-ähnliche UI via Open WebUI und integriert sie in VS Code über Continue.dev.

Zielgruppe: Entwicklerinnen und Entwickler, die täglich ein LLM nutzen und den lokalen Betrieb aus Kosten- oder Datenschutzgründen evaluieren wollen. Voraussetzungen: M1 Pro oder besser oder eine GPU mit mindestens 16 GB VRAM.

TL;DR

brew install ollama oder herunterladen von ollama.com
ollama pull llama3.3:70b, oder das leichtere qwen2.5-coder:7b
ollama run qwen2.5-coder:7b → chatten
UI gewünscht? Open WebUI (Docker — unter einer Minute)
VS Code-Integration: Continue.dev installieren und Ollama in ~/.continue/config.json registrieren

Voraussetzungen

Mac: M1 Pro oder neuer + 16 GB+ Unified Memory (32 GB empfohlen)
Windows / Linux: NVIDIA-GPU mit 8 GB+ VRAM (16 GB+ empfohlen), oder starke CPU + 32 GB+ RAM
(Optional) Docker — für Open WebUI

1. Wann lokale LLMs passen

Geeignete Fälle

Sensibler Code — Unternehmensrichtlinien verbieten Cloud-LLMs (Gesundheitswesen, Finanzen, Verteidigung)
Hohe Wiederholungsrate — 1.000+ Anfragen/Tag summieren sich bei Cloud-Preisen erheblich
Offline-Betrieb — Reisen, instabiles Internet
Experimente — Modellvergleiche, Fine-Tuning
Niedriglatenz-Automatisierung — Antwortschleifen unter 200 ms

Ungeeignete Fälle

Höchste Ausgabequalität — Claude Opus / GPT-5-Niveau ist lokal noch nicht erreichbar
Schwache Hardware — 8 GB Mac M1, 4 GB GPU — selbst 7B-Modelle laufen träge
Multimodale Vielfalt — Bild- und Audio-Optionen sind lokal noch dünn
Langer Kontext — Claudes 1M-Token-Fenster ist lokal kaum erreichbar

Realität: Ein lokales 70B-Modell erreicht bei einer Teilmenge von Aufgaben GPT-4-Niveau. Coding-Hilfe, Zusammenfassungen, Übersetzungen — gut. Komplexes Reasoning — Cloud gewinnt noch.

2. Ollama installieren

2.1 macOS

brew install ollama

Oder .dmg von ollama.com/download.

Als GUI-App oder als Hintergrunddienst starten:

# Hintergrunddienst (empfohlen)
brew services start ollama

2.2 Windows

winget install Ollama.Ollama

Oder ollama.com/download.

Nach der Installation erscheint das Ollama-Symbol im System-Tray. Das Programm läuft automatisch im Hintergrund.

2.3 Linux

curl -fsSL https://ollama.com/install.sh | sh

2.4 Überprüfen

ollama --version            # ollama version 0.x.x
curl http://localhost:11434/api/version
# {"version":"0.x.x"}

3. Erstes Modell — ein leichter Coding-Assistent

Mit einem kleinen Modell beginnen — schnellerer Download und schnellere Antworten:

3.1 Qwen 2.5 Coder 7B

ollama pull qwen2.5-coder:7b      # 4,7 GB
ollama run qwen2.5-coder:7b

Chat:

>>> Schreibe eine Python-Funktion zum Zusammenführen zweier sortierter Listen.

/bye zum Beenden.

3.2 Größere Modelle (bei entsprechender Hardware)

Modell	Größe	Empfohlenes RAM	Verwendung
`qwen2.5-coder:7b`	4,7 GB	16 GB	Schnelle Coding-Hilfe
`qwen2.5-coder:32b`	19 GB	48 GB	Starkes Coding
`llama3.3:70b`	40 GB	64 GB	Allgemein / stark
`deepseek-coder-v2:16b`	9 GB	24 GB	Code-spezialisiert
`gemma2:9b`	5,5 GB	16 GB	Ausgewogen
`phi3.5:3.8b`	2,2 GB	8 GB	Leichtestes (funktioniert auf langsamen GPUs)

ollama pull llama3.3:70b
ollama run llama3.3:70b

Download-Dauer = Modellgröße ÷ Bandbreite. Bei 1 Gbps ca. 6 Minuten für das 70B-Modell.

3.3 Modelle verwalten

ollama list                          # installierte Modelle
ollama rm qwen2.5-coder:7b           # entfernen
ollama show llama3.3:70b             # Metadaten

4. Open WebUI — ChatGPT-ähnliche UI

Browser-UI statt CLI — Docker-Einrichtung in unter einer Minute.

4.1 Installieren

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Docker-Einrichtung: /mac/docker-setup oder /windows/docker-wsl2.

4.2 Erste Nutzung

Browser → http://localhost:3000 → erstes Konto erstellen (nur lokal).

Ollama wird automatisch erkannt. Das gewünschte Modell im Dropdown oben links auswählen und chatten.

4.3 Stärken

Gespeicherte Gesprächshistorie
Markdown-Rendering + Code-Syntaxhervorhebung
Parallele Unterhaltungen mit mehreren Modellen zum Vergleich
Datei-Upload + RAG (optional)

5. VS Code-Integration — Continue.dev

5.1 Erweiterung installieren

VS Code-Erweiterungen:

Continue (Continue.continue)

Oder code --install-extension Continue.continue.

5.2 Ollama-Modelle registrieren

~/.continue/config.json (erstellen falls nicht vorhanden):

{
  "models": [
    {
      "title": "Qwen Coder 7B",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b"
    },
    {
      "title": "Llama 3.3 70B",
      "provider": "ollama",
      "model": "llama3.3:70b"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen Coder 7B",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

5.3 Verwenden

In VS Code:

Cmd + I (Mac) / Ctrl + I (Win) — Inline-Chat
Cmd + L / Ctrl + L — Chat-Seitenleiste
Tab — Autovervollständigung (nutzt tabAutocompleteModel)

Continue.dev ist eine Open-Source-Alternative zu Cursor und Copilot. Neben lokalen Modellen können auch Claude / GPT-API-Keys registriert werden.

6. Performance-Tuning

6.1 GPU zuerst (NVIDIA / Apple Silicon)

Ollama erkennt und nutzt die GPU automatisch. Bestätigen:

ollama ps
# NAME                  ID    SIZE  PROCESSOR
# qwen2.5-coder:7b     ...   5 GB  100% GPU

Keine GPU angezeigt:

macOS: Apple Silicon wird automatisch erkannt (Intel Mac = nur CPU)
NVIDIA: CUDA-Treiber prüfen (nvidia-smi)

6.2 Modellgröße anpassen

Jedes Modell ist in Quantisierungsvarianten verfügbar (Geschwindigkeit ↔ Qualität):

ollama pull qwen2.5-coder:7b-instruct-q4_K_M      # Standard (4-bit, empfohlen)
ollama pull qwen2.5-coder:7b-instruct-q8_0         # 8-bit (genauer, größer)
ollama pull qwen2.5-coder:7b-instruct-fp16         # volle Präzision (genaueste, größte)

4-bit ist der empfohlene Standard — kaum merklicher Qualitätsverlust bei halbem Speicherverbrauch.

6.3 Kontextlänge anpassen

Das Standard-Kontextfenster beträgt 4K Token. Zum Erweitern:

ollama run qwen2.5-coder:7b
>>> /set parameter num_ctx 16384

Oder eine Modelfile:

FROM qwen2.5-coder:7b
PARAMETER num_ctx 16384

Längerer Kontext = mehr Speicherbedarf + langsamere Antworten.

7. Kosten- / Stromvergleich

7.1 Cloud vs. lokal (grob monatlich)

Nutzung	Claude Pro	Lokal (Ollama, inkl. Strom)
Leicht (~100 Prompts/Mo)	$20/Mo	M2 Pro Strom ~$3/Mo
Mittel (~1.000 Prompts/Mo)	$100/Mo (API)	~$5/Mo
Schwer (~10.000 Prompts/Mo)	$500+/Mo (API)	~$15/Mo

Zu berücksichtigen sind die Anschaffungskosten der Hardware (M2 Pro 32 GB ca. $2.500). Der Break-even liegt selbst für Vielnutzer bei 1–2 Jahren.

7.2 Stromverbrauch (grob)

M2 Pro unter Volllast: ~30 W → 24 h = 0,72 kWh/Tag → 22 kWh/Mo × $0,15 = $3,30
NVIDIA 4090 unter Volllast: ~450 W → 24 h Volllast unrealistisch, aber bei starker Realnutzung ~$20–40/Mo

Lokale Modelle verbrauchen Strom nur bei tatsächlicher Nutzung. Im Leerlauf praktisch 0.

8. Überprüfen

# 1. Ollama funktioniert
ollama --version
curl http://localhost:11434/api/version
 
# 2. Modell installiert
ollama list
 
# 3. Antworttest
echo "Write hello world in Rust" | ollama run qwen2.5-coder:7b
 
# 4. Open WebUI (falls ausgeführt)
curl http://localhost:3000
 
# 5. Continue.dev
code .   # In VS Code: Cmd+L → Modell auswählen → chatten

9. Fehlerbehebung

`ollama: command not found`

macOS: brew-Präfix im PATH (/opt/homebrew/bin)
Windows: PowerShell neustarten
Linux: ~/.ollama/bin oder System-PATH

Antworten sehr langsam

ollama ps ausführen, um GPU-Nutzung zu prüfen. CPU bei 100% bedeutet: GPU wird nicht erkannt
macOS Intel: keine GPU-Beschleunigung — Apple Silicon empfohlen
NVIDIA: CUDA-Treiber prüfen + Ollama neu starten
Zu wenig RAM: Modellgröße ÷ 8 muss ≤ verfügbarem RAM sein, sonst leidet die Performance stark

„Out of memory"-Fehler

Das Modell übersteigt den verfügbaren RAM / VRAM
Kleineres Modell versuchen (:3b statt :7b) oder eine stärker quantisierte Variante (q4_K_M)
Andere Anwendungen schließen und erneut versuchen

Continue.dev erkennt Ollama-Modelle nicht

~/.continue/config.json validieren (jq . config.json)
VS Code neu starten
Sicherstellen, dass Ollama läuft (curl localhost:11434/api/version)

Externen Zugriff auf Open WebUI blockieren

Standard: nur localhost — extern bereits blockiert
Bei öffentlicher Exponierung WEBUI_AUTH=True setzen (Pflicht-Registrierung)

Modell-Download unterbrochen (Netzwerkunterbrechung)

ollama pull erneut ausführen — der Download wird fortgesetzt
~/.ollama/models/ prüfen; beschädigte Dateien löschen und Download neu starten

10. Empfohlene Einstiegspunkte

Für Anfänger:

Mac M2 Pro 16 GB: qwen2.5-coder:7b + Continue.dev
Mac M2 Pro 32 GB: qwen2.5-coder:32b + Continue.dev + Open WebUI
Windows + RTX 4090: llama3.3:70b + Open WebUI
Nur CPU 16 GB: phi3.5:3.8b (langsam aber funktional)

Nach 3 Monaten die eigene Zufriedenheit mit dem Cloud-LLM vergleichen, das man andernfalls bezahlen würde — dann eine fundierte Entscheidung treffen.

11. Was als Nächstes kommt

Claude Code einrichten — /ai-agents/claude-code — Cloud-Pendant
Cursor einrichten — /ai-agents/cursor-setup — Cursor kann auch auf Ollama zeigen
Multi-Tool-Workflow — /ai-agents/multi-tool-workflow
MCP-Server — /ai-agents/mcp-servers — Ollama + MCP ist möglich

Referenzen

Changelog

2026-05-16: Erster Entwurf. Ollama-Installation + Modellvergleich + Open WebUI + Continue.dev-Integration + Perf-Tuning + Kostenvergleich + sechs Fehlerbehebungsfälle.

Lokale LLMs mit Ollama — Open WebUI · Continue.dev-Integration