devAlice
← AI Agents

Lokale LLMs mit Ollama — Open WebUI · Continue.dev-Integration

Llama / Qwen / DeepSeek lokal auf Mac und Windows ausführen. Kosten, Datenschutz, Offline — eine Alternative zu Cloud-LLMs.

Cloud-LLMs (Claude, GPT, Gemini) sind leistungsstark, haben aber Nachteile: monatliche Kosten, Datenschutz (Firmencode verlässt das Netzwerk) und Internetabhängigkeit. Wenn die eigene Maschine ein hinreichend großes Modell ausführen kann, wird der lokale Betrieb zur echten Alternative.

Dieser Leitfaden führt Llama 3.3 / Qwen 2.5 / DeepSeek-Coder und weitere Modelle auf macOS und Windows mit Ollama aus, ergänzt sie um eine ChatGPT-ähnliche UI via Open WebUI und integriert sie in VS Code über Continue.dev.

Zielgruppe: Entwicklerinnen und Entwickler, die täglich ein LLM nutzen und den lokalen Betrieb aus Kosten- oder Datenschutzgründen evaluieren wollen. Voraussetzungen: M1 Pro oder besser oder eine GPU mit mindestens 16 GB VRAM.

TL;DR

  1. brew install ollama oder herunterladen von ollama.com
  2. ollama pull llama3.3:70b, oder das leichtere qwen2.5-coder:7b
  3. ollama run qwen2.5-coder:7b → chatten
  4. UI gewünscht? Open WebUI (Docker — unter einer Minute)
  5. VS Code-Integration: Continue.dev installieren und Ollama in ~/.continue/config.json registrieren

Voraussetzungen

  • Mac: M1 Pro oder neuer + 16 GB+ Unified Memory (32 GB empfohlen)
  • Windows / Linux: NVIDIA-GPU mit 8 GB+ VRAM (16 GB+ empfohlen), oder starke CPU + 32 GB+ RAM
  • (Optional) Docker — für Open WebUI

1. Wann lokale LLMs passen

Geeignete Fälle

  • Sensibler Code — Unternehmensrichtlinien verbieten Cloud-LLMs (Gesundheitswesen, Finanzen, Verteidigung)
  • Hohe Wiederholungsrate — 1.000+ Anfragen/Tag summieren sich bei Cloud-Preisen erheblich
  • Offline-Betrieb — Reisen, instabiles Internet
  • Experimente — Modellvergleiche, Fine-Tuning
  • Niedriglatenz-Automatisierung — Antwortschleifen unter 200 ms

Ungeeignete Fälle

  • Höchste Ausgabequalität — Claude Opus / GPT-5-Niveau ist lokal noch nicht erreichbar
  • Schwache Hardware — 8 GB Mac M1, 4 GB GPU — selbst 7B-Modelle laufen träge
  • Multimodale Vielfalt — Bild- und Audio-Optionen sind lokal noch dünn
  • Langer Kontext — Claudes 1M-Token-Fenster ist lokal kaum erreichbar

Realität: Ein lokales 70B-Modell erreicht bei einer Teilmenge von Aufgaben GPT-4-Niveau. Coding-Hilfe, Zusammenfassungen, Übersetzungen — gut. Komplexes Reasoning — Cloud gewinnt noch.


2. Ollama installieren

2.1 macOS

brew install ollama

Oder .dmg von ollama.com/download.

Als GUI-App oder als Hintergrunddienst starten:

# Hintergrunddienst (empfohlen)
brew services start ollama

2.2 Windows

winget install Ollama.Ollama

Oder ollama.com/download.

Nach der Installation erscheint das Ollama-Symbol im System-Tray. Das Programm läuft automatisch im Hintergrund.

2.3 Linux

curl -fsSL https://ollama.com/install.sh | sh

2.4 Überprüfen

ollama --version            # ollama version 0.x.x
curl http://localhost:11434/api/version
# {"version":"0.x.x"}

3. Erstes Modell — ein leichter Coding-Assistent

Mit einem kleinen Modell beginnen — schnellerer Download und schnellere Antworten:

3.1 Qwen 2.5 Coder 7B

ollama pull qwen2.5-coder:7b      # 4,7 GB
ollama run qwen2.5-coder:7b

Chat:

>>> Schreibe eine Python-Funktion zum Zusammenführen zweier sortierter Listen.

/bye zum Beenden.

3.2 Größere Modelle (bei entsprechender Hardware)

ModellGrößeEmpfohlenes RAMVerwendung
qwen2.5-coder:7b4,7 GB16 GBSchnelle Coding-Hilfe
qwen2.5-coder:32b19 GB48 GBStarkes Coding
llama3.3:70b40 GB64 GBAllgemein / stark
deepseek-coder-v2:16b9 GB24 GBCode-spezialisiert
gemma2:9b5,5 GB16 GBAusgewogen
phi3.5:3.8b2,2 GB8 GBLeichtestes (funktioniert auf langsamen GPUs)
ollama pull llama3.3:70b
ollama run llama3.3:70b

Download-Dauer = Modellgröße ÷ Bandbreite. Bei 1 Gbps ca. 6 Minuten für das 70B-Modell.

3.3 Modelle verwalten

ollama list                          # installierte Modelle
ollama rm qwen2.5-coder:7b           # entfernen
ollama show llama3.3:70b             # Metadaten

4. Open WebUI — ChatGPT-ähnliche UI

Browser-UI statt CLI — Docker-Einrichtung in unter einer Minute.

4.1 Installieren

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Docker-Einrichtung: /mac/docker-setup oder /windows/docker-wsl2.

4.2 Erste Nutzung

Browser → http://localhost:3000 → erstes Konto erstellen (nur lokal).

Ollama wird automatisch erkannt. Das gewünschte Modell im Dropdown oben links auswählen und chatten.

4.3 Stärken

  • Gespeicherte Gesprächshistorie
  • Markdown-Rendering + Code-Syntaxhervorhebung
  • Parallele Unterhaltungen mit mehreren Modellen zum Vergleich
  • Datei-Upload + RAG (optional)

5. VS Code-Integration — Continue.dev

5.1 Erweiterung installieren

VS Code-Erweiterungen:

  • Continue (Continue.continue)

Oder code --install-extension Continue.continue.

5.2 Ollama-Modelle registrieren

~/.continue/config.json (erstellen falls nicht vorhanden):

{
  "models": [
    {
      "title": "Qwen Coder 7B",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b"
    },
    {
      "title": "Llama 3.3 70B",
      "provider": "ollama",
      "model": "llama3.3:70b"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen Coder 7B",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

5.3 Verwenden

In VS Code:

  • Cmd + I (Mac) / Ctrl + I (Win) — Inline-Chat
  • Cmd + L / Ctrl + L — Chat-Seitenleiste
  • Tab — Autovervollständigung (nutzt tabAutocompleteModel)

Continue.dev ist eine Open-Source-Alternative zu Cursor und Copilot. Neben lokalen Modellen können auch Claude / GPT-API-Keys registriert werden.


6. Performance-Tuning

6.1 GPU zuerst (NVIDIA / Apple Silicon)

Ollama erkennt und nutzt die GPU automatisch. Bestätigen:

ollama ps
# NAME                  ID    SIZE  PROCESSOR
# qwen2.5-coder:7b     ...   5 GB  100% GPU

Keine GPU angezeigt:

  • macOS: Apple Silicon wird automatisch erkannt (Intel Mac = nur CPU)
  • NVIDIA: CUDA-Treiber prüfen (nvidia-smi)

6.2 Modellgröße anpassen

Jedes Modell ist in Quantisierungsvarianten verfügbar (Geschwindigkeit ↔ Qualität):

ollama pull qwen2.5-coder:7b-instruct-q4_K_M      # Standard (4-bit, empfohlen)
ollama pull qwen2.5-coder:7b-instruct-q8_0         # 8-bit (genauer, größer)
ollama pull qwen2.5-coder:7b-instruct-fp16         # volle Präzision (genaueste, größte)

4-bit ist der empfohlene Standard — kaum merklicher Qualitätsverlust bei halbem Speicherverbrauch.

6.3 Kontextlänge anpassen

Das Standard-Kontextfenster beträgt 4K Token. Zum Erweitern:

ollama run qwen2.5-coder:7b
>>> /set parameter num_ctx 16384

Oder eine Modelfile:

FROM qwen2.5-coder:7b
PARAMETER num_ctx 16384

Längerer Kontext = mehr Speicherbedarf + langsamere Antworten.


7. Kosten- / Stromvergleich

7.1 Cloud vs. lokal (grob monatlich)

NutzungClaude ProLokal (Ollama, inkl. Strom)
Leicht (~100 Prompts/Mo)$20/MoM2 Pro Strom ~$3/Mo
Mittel (~1.000 Prompts/Mo)$100/Mo (API)~$5/Mo
Schwer (~10.000 Prompts/Mo)$500+/Mo (API)~$15/Mo

Zu berücksichtigen sind die Anschaffungskosten der Hardware (M2 Pro 32 GB ca. $2.500). Der Break-even liegt selbst für Vielnutzer bei 1–2 Jahren.

7.2 Stromverbrauch (grob)

  • M2 Pro unter Volllast: ~30 W → 24 h = 0,72 kWh/Tag → 22 kWh/Mo × $0,15 = $3,30
  • NVIDIA 4090 unter Volllast: ~450 W → 24 h Volllast unrealistisch, aber bei starker Realnutzung ~$20–40/Mo

Lokale Modelle verbrauchen Strom nur bei tatsächlicher Nutzung. Im Leerlauf praktisch 0.


8. Überprüfen

# 1. Ollama funktioniert
ollama --version
curl http://localhost:11434/api/version
 
# 2. Modell installiert
ollama list
 
# 3. Antworttest
echo "Write hello world in Rust" | ollama run qwen2.5-coder:7b
 
# 4. Open WebUI (falls ausgeführt)
curl http://localhost:3000
 
# 5. Continue.dev
code .   # In VS Code: Cmd+L → Modell auswählen → chatten

9. Fehlerbehebung

ollama: command not found

  • macOS: brew-Präfix im PATH (/opt/homebrew/bin)
  • Windows: PowerShell neustarten
  • Linux: ~/.ollama/bin oder System-PATH

Antworten sehr langsam

  • ollama ps ausführen, um GPU-Nutzung zu prüfen. CPU bei 100% bedeutet: GPU wird nicht erkannt
  • macOS Intel: keine GPU-Beschleunigung — Apple Silicon empfohlen
  • NVIDIA: CUDA-Treiber prüfen + Ollama neu starten
  • Zu wenig RAM: Modellgröße ÷ 8 muss ≤ verfügbarem RAM sein, sonst leidet die Performance stark

„Out of memory"-Fehler

  • Das Modell übersteigt den verfügbaren RAM / VRAM
  • Kleineres Modell versuchen (:3b statt :7b) oder eine stärker quantisierte Variante (q4_K_M)
  • Andere Anwendungen schließen und erneut versuchen

Continue.dev erkennt Ollama-Modelle nicht

  • ~/.continue/config.json validieren (jq . config.json)
  • VS Code neu starten
  • Sicherstellen, dass Ollama läuft (curl localhost:11434/api/version)

Externen Zugriff auf Open WebUI blockieren

  • Standard: nur localhost — extern bereits blockiert
  • Bei öffentlicher Exponierung WEBUI_AUTH=True setzen (Pflicht-Registrierung)

Modell-Download unterbrochen (Netzwerkunterbrechung)

  • ollama pull erneut ausführen — der Download wird fortgesetzt
  • ~/.ollama/models/ prüfen; beschädigte Dateien löschen und Download neu starten

10. Empfohlene Einstiegspunkte

Für Anfänger:

  1. Mac M2 Pro 16 GB: qwen2.5-coder:7b + Continue.dev
  2. Mac M2 Pro 32 GB: qwen2.5-coder:32b + Continue.dev + Open WebUI
  3. Windows + RTX 4090: llama3.3:70b + Open WebUI
  4. Nur CPU 16 GB: phi3.5:3.8b (langsam aber funktional)

Nach 3 Monaten die eigene Zufriedenheit mit dem Cloud-LLM vergleichen, das man andernfalls bezahlen würde — dann eine fundierte Entscheidung treffen.


11. Was als Nächstes kommt


Referenzen

Changelog

  • 2026-05-16: Erster Entwurf. Ollama-Installation + Modellvergleich + Open WebUI + Continue.dev-Integration + Perf-Tuning + Kostenvergleich + sechs Fehlerbehebungsfälle.