ローカルLLM with Ollama — Open WebUI · Continue.dev 統合
MacとWindowsでLlama / Qwen / DeepSeekをローカル実行。コスト・プライバシー・オフライン — クラウドLLMの代替として。
クラウド LLM(Claude、GPT、Gemini)は強力だが欠点もある: 月額費用、プライバシー(企業のコードがネットワーク外に出る)、インターネット依存。マシンが十分大きなモデルを実行できるなら、ローカル実行は現実的な代替手段になる。クラウドかローカルかというより、用途によって使い分けるものだと考える — 機密データを扱うタスクや大量繰り返し処理はローカルへ、最高品質が必要な場面はクラウドへ、というように。
このガイドでは、macOSとWindowsでOllamaを使ってLlama 3.3 / Qwen 2.5 / DeepSeek-Coderなどを動かし、Open WebUIでChatGPTスタイルのUIを追加し、Continue.devでVS Codeに統合する。
対象読者: LLMを毎日使っていて、コスト/プライバシー面でローカルを評価している開発者。スペック: M1 Pro以上または16GB以上のVRAMを持つGPU。
TL;DR
brew install ollamaまたは ollama.com からダウンロードollama pull llama3.3:70b、または軽量なqwen2.5-coder:7bollama run qwen2.5-coder:7b→ チャット- UIが欲しい? Open WebUI(Docker — 1分以内)
- VS Code統合: Continue.devをインストールして
~/.continue/config.jsonでOllamaを登録
前提条件
- Mac: M1 Pro以降 + 16GB以上のユニファイドメモリ(32GB推奨)
- Windows / Linux: NVIDIA GPU 8GB以上のVRAM(16GB以上推奨)、または強力なCPU + 32GB以上のRAM
- (オプション)Docker — Open WebUI用
1. ローカルLLMが向いている場面
向いているケース
- 機密コード — 企業ポリシーでクラウドLLMが禁止(医療、金融、防衛)
- 大量繰り返し — 毎日1,000回以上のリクエストはクラウド料金が積み重なる
- オフライン — 飛行機内、不安定なインターネット
- 実験 — モデル比較、ファインチューニング
- 低レイテンシ自動化 — 200ms未満のレスポンスループ
向いていないケース
- 最先端の品質 — Claude Opus / GPT-5レベルはまだローカルでは無理
- 低スペックマシン — 8GB Mac M1、4GB GPU — 7Bモデルでさえ重い
- マルチモーダルの多様性 — 画像/音声のオプションはローカルでは少ない
- 長いコンテキスト — Claudeの1Mトークンウィンドウはローカルでは難しい
実際のところ: ローカル 70B モデル ≈ 一部タスクでの GPT-4 品質。コーディングアシスト・要約・翻訳 — 十分実用的。複雑な推論 — クラウドがまだ優位。
2. Ollamaのインストール
2.1 macOS
brew install ollamaまたは ollama.com/download から.dmgを入手。
GUIアプリまたはバックグラウンドサービスとして実行:
# バックグラウンドサービス(推奨)
brew services start ollama2.2 Windows
winget install Ollama.Ollamaまたは ollama.com/download。
インストール後、systemトレイにollamaアイコンが表示される。自動的にバックグラウンド実行される。
2.3 Linux
curl -fsSL https://ollama.com/install.sh | sh2.4 確認
ollama --version # ollama version 0.x.x
curl http://localhost:11434/api/version
# {"version":"0.x.x"}3. 最初のモデル — 軽量コーディングアシスタント
まずは小さいモデルから試しましょう(ダウンロードが速く、レスポンスも速い):
3.1 Qwen 2.5 Coder 7B
ollama pull qwen2.5-coder:7b # 4.7GB
ollama run qwen2.5-coder:7bチャット:
>>> Write a Python function to merge two sorted lists.
/byeで終了。
3.2 大きなモデル(スペックがある場合)
| モデル | サイズ | 推奨RAM | 用途 |
|---|---|---|---|
qwen2.5-coder:7b | 4.7GB | 16GB | 素早いコーディングアシスト |
qwen2.5-coder:32b | 19GB | 48GB | 強力なコーディング |
llama3.3:70b | 40GB | 64GB | 汎用 / 強力 |
deepseek-coder-v2:16b | 9GB | 24GB | コード特化 |
gemma2:9b | 5.5GB | 16GB | バランス型 |
phi3.5:3.8b | 2.2GB | 8GB | 最軽量(低速GPUで動く) |
ollama pull llama3.3:70b
ollama run llama3.3:70bダウンロード時間 = モデルサイズ ÷ 帯域幅。1Gbps なら 70B は約6分だ。
3.3 モデルの管理
ollama list # インストール済みモデル
ollama rm qwen2.5-coder:7b # 削除
ollama show llama3.3:70b # メタデータ4. Open WebUI — ChatGPTスタイルのUI
CLI の代わりにブラウザ UI を使う。Docker で1分以内にセットアップが完了する。
4.1 インストール
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainDockerセットアップ: /mac/docker-setup または /windows/docker-wsl2。
4.2 最初の使用
ブラウザ → http://localhost:3000 → 最初のアカウントを作成(ローカルのみ)。
Ollamaが自動的に検出される。左上のドロップダウンからモデルを選択してチャット。
4.3 強み
- 会話履歴の保存
- Markdownレンダリング + コードのシンタックスハイライト
- 複数モデルを並べて会話(比較)
- ファイルアップロード + RAG(オプション)
5. VS Code統合 — Continue.dev
5.1 拡張機能のインストール
VS Code Extensions:
- Continue(
Continue.continue)
または code --install-extension Continue.continue。
5.2 Ollamaモデルを登録する
~/.continue/config.json(なければ作成):
{
"models": [
{
"title": "Qwen Coder 7B",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
},
{
"title": "Llama 3.3 70B",
"provider": "ollama",
"model": "llama3.3:70b"
}
],
"tabAutocompleteModel": {
"title": "Qwen Coder 7B",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}5.3 使い方
VS Code内:
Cmd + I(Mac)/Ctrl + I(Win) — インラインチャットCmd + L/Ctrl + L— チャットサイドバー- Tab — オートコンプリート(
tabAutocompleteModelを使用)
Continue.dev は Cursor / Copilot のオープンソース代替だ。ローカルモデルのほか、Claude / GPT のキーも登録できる。
6. パフォーマンスチューニング
6.1 GPUを優先(NVIDIA / Apple Silicon)
OllamaはGPUを自動的に使用する。確認:
ollama ps
# NAME ID SIZE PROCESSOR
# qwen2.5-coder:7b ... 5GB 100% GPUGPUが表示されない場合:
- macOS: Apple Siliconは自動(Intel MacはCPUのみ)
- NVIDIA: CUDAドライバを確認(
nvidia-smi)
6.2 モデルサイズを調整する
各モデルには量子化バリアント(性能 ↔ 品質)がある:
ollama pull qwen2.5-coder:7b-instruct-q4_K_M # デフォルト(4-bit、推奨)
ollama pull qwen2.5-coder:7b-instruct-q8_0 # 8-bit(より正確、より大きい)
ollama pull qwen2.5-coder:7b-instruct-fp16 # フル精度(最も正確、最大)4-bit が標準 — メモリ使用量が半分になるが品質の低下はほぼ感知できない。
6.3 コンテキスト長を調整する
デフォルトのコンテキストは4Kだ。拡張するには:
ollama run qwen2.5-coder:7b
>>> /set parameter num_ctx 16384またはModelfile:
FROM qwen2.5-coder:7b
PARAMETER num_ctx 16384
長くするとメモリ消費が増え、レスポンスが遅くなる。
7. コスト / 電力の比較
7.1 クラウド vs ローカル(月額概算)
| 使用量 | Claude Pro | ローカル(Ollama、電気代含む) |
|---|---|---|
| ライト(月100プロンプト) | $20/月 | M2 Pro電気代 約$3/月 |
| ミディアム(月1,000プロンプト) | $100/月(API) | 約$5/月 |
| ヘビー(月10,000プロンプト) | $500+/月(API) | 約$15/月 |
ただし初期マシンコストがあります(M2 Pro 32GB 約 $2,500)。ヘビーユーザーでも損益分岐点は1〜2年だ。
7.2 消費電力(概算)
- M2 Pro フル負荷: 約30W → 24時間 = 0.72 kWh/日 → 22 kWh/月 × $0.15 = $3.3
- NVIDIA 4090 フル負荷: 約450W → 24時間フル負荷は非現実的だが、実際のヘビー使用は$20〜40/月
ローカルは使っている間だけ電力を消費する。アイドル中は0だ。
8. 確認
# 1. Ollamaが動いている
ollama --version
curl http://localhost:11434/api/version
# 2. モデルがインストールされている
ollama list
# 3. レスポンステスト
echo "Write hello world in Rust" | ollama run qwen2.5-coder:7b
# 4. Open WebUI(起動している場合)
curl http://localhost:3000
# 5. Continue.dev
code . # VS Code内: Cmd+L → モデルを選択 → チャット9. トラブルシューティング
ollama: command not found
- macOS: brewのプレフィックスがPATHにある(
/opt/homebrew/bin) - Windows: PowerShellを再起動
- Linux:
~/.ollama/binまたはシステムPATH
レスポンスがとても遅い
ollama psでGPU使用を確認。CPUが100%ならGPUが認識されていない- macOS Intel: GPUアクセラレーションなし — Apple Silicon推奨
- NVIDIA: CUDAドライバ + Ollamaを再起動
- RAM 不足: モデルサイズ ÷ 8 が利用可能な RAM を超えると極端に遅くなる
「Out of memory」エラー
- モデルがRAM/VRAMより大きい
- 小さいモデルを試す(
:3bの代わりに:7b)または量子化を変える(q4_K_M) - 他のアプリを閉じて再試行
Continue.devがOllamaモデルを認識しない
~/.continue/config.jsonを検証(jq . config.json)- VS Codeを再起動
- Ollamaが実行中か確認(
curl localhost:11434/api/version)
Open WebUIへの外部アクセスをブロックしたい
- デフォルトはlocalhostのみ — 外部からはすでにブロック済み
- 公開する場合は
WEBUI_AUTH=Trueを設定(サインアップゲートが必要)
モデルダウンロードが中断された(ネットワーク障害)
ollama pullを再実行 — 再開する~/.ollama/models/を確認; ファイルが壊れている場合は削除して再試行
10. 推奨スタートポイント
始めたばかりの場合:
- Mac M2 Pro 16GB:
qwen2.5-coder:7b+ Continue.dev - Mac M2 Pro 32GB:
qwen2.5-coder:32b+ Continue.dev + Open WebUI - Windows + RTX 4090:
llama3.3:70b+ Open WebUI - CPUのみ16GB:
phi3.5:3.8b(遅いが動く)
3ヶ月後、クラウド LLM との満足度を比較して、継続するか判断しましょう。
11. 次のステップ
- Claude Code セットアップ — /ai-agents/claude-code — クラウド版
- Cursor セットアップ — /ai-agents/cursor-setup — CursorはOllamaも指定可能
- マルチツールワークフロー — /ai-agents/multi-tool-workflow
- MCP サーバー — /ai-agents/mcp-servers — Ollama + MCPも可能
参考リンク
変更履歴
- 2026-05-16: 初版。Ollamaインストール + モデル比較 + Open WebUI + Continue.dev統合 + パフォーマンスチューニング + コスト比較 + 6つのトラブルシューティング。