MacとWindowsでLlama / Qwen / DeepSeekをローカル実行。コスト・プライバシー・オフライン — クラウドLLMの代替として。

クラウド LLM（Claude、GPT、Gemini）は強力だが欠点もある: 月額費用、プライバシー（企業のコードがネットワーク外に出る）、インターネット依存。マシンが十分大きなモデルを実行できるなら、ローカル実行は現実的な代替手段になる。クラウドかローカルかというより、用途によって使い分けるものだと考える — 機密データを扱うタスクや大量繰り返し処理はローカルへ、最高品質が必要な場面はクラウドへ、というように。

このガイドでは、macOSとWindowsでOllamaを使ってLlama 3.3 / Qwen 2.5 / DeepSeek-Coderなどを動かし、Open WebUIでChatGPTスタイルのUIを追加し、Continue.devでVS Codeに統合する。

対象読者: LLMを毎日使っていて、コスト/プライバシー面でローカルを評価している開発者。スペック: M1 Pro以上または16GB以上のVRAMを持つGPU。

TL;DR

brew install ollama または ollama.com からダウンロード
ollama pull llama3.3:70b、または軽量な qwen2.5-coder:7b
ollama run qwen2.5-coder:7b → チャット
UIが欲しい? Open WebUI（Docker — 1分以内）
VS Code統合: Continue.devをインストールして ~/.continue/config.json でOllamaを登録

前提条件

Mac: M1 Pro以降 + 16GB以上のユニファイドメモリ（32GB推奨）
Windows / Linux: NVIDIA GPU 8GB以上のVRAM（16GB以上推奨）、または強力なCPU + 32GB以上のRAM
（オプション）Docker — Open WebUI用

1. ローカルLLMが向いている場面

向いているケース

機密コード — 企業ポリシーでクラウドLLMが禁止（医療、金融、防衛）
大量繰り返し — 毎日1,000回以上のリクエストはクラウド料金が積み重なる
オフライン — 飛行機内、不安定なインターネット
実験 — モデル比較、ファインチューニング
低レイテンシ自動化 — 200ms未満のレスポンスループ

向いていないケース

最先端の品質 — Claude Opus / GPT-5レベルはまだローカルでは無理
低スペックマシン — 8GB Mac M1、4GB GPU — 7Bモデルでさえ重い
マルチモーダルの多様性 — 画像/音声のオプションはローカルでは少ない
長いコンテキスト — Claudeの1Mトークンウィンドウはローカルでは難しい

実際のところ: ローカル 70B モデル ≈ 一部タスクでの GPT-4 品質。コーディングアシスト・要約・翻訳 — 十分実用的。複雑な推論 — クラウドがまだ優位。

2. Ollamaのインストール

2.1 macOS

brew install ollama

または ollama.com/download から.dmgを入手。

GUIアプリまたはバックグラウンドサービスとして実行:

# バックグラウンドサービス（推奨）
brew services start ollama

2.2 Windows

winget install Ollama.Ollama

または ollama.com/download。

インストール後、systemトレイにollamaアイコンが表示される。自動的にバックグラウンド実行される。

2.3 Linux

curl -fsSL https://ollama.com/install.sh | sh

2.4 確認

ollama --version            # ollama version 0.x.x
curl http://localhost:11434/api/version
# {"version":"0.x.x"}

3. 最初のモデル — 軽量コーディングアシスタント

まずは小さいモデルから試しましょう（ダウンロードが速く、レスポンスも速い）:

3.1 Qwen 2.5 Coder 7B

ollama pull qwen2.5-coder:7b      # 4.7GB
ollama run qwen2.5-coder:7b

チャット:

>>> Write a Python function to merge two sorted lists.

/byeで終了。

3.2 大きなモデル（スペックがある場合）

モデル	サイズ	推奨RAM	用途
`qwen2.5-coder:7b`	4.7GB	16GB	素早いコーディングアシスト
`qwen2.5-coder:32b`	19GB	48GB	強力なコーディング
`llama3.3:70b`	40GB	64GB	汎用 / 強力
`deepseek-coder-v2:16b`	9GB	24GB	コード特化
`gemma2:9b`	5.5GB	16GB	バランス型
`phi3.5:3.8b`	2.2GB	8GB	最軽量（低速GPUで動く）

ollama pull llama3.3:70b
ollama run llama3.3:70b

ダウンロード時間 = モデルサイズ ÷ 帯域幅。1Gbps なら 70B は約6分だ。

3.3 モデルの管理

ollama list                          # インストール済みモデル
ollama rm qwen2.5-coder:7b           # 削除
ollama show llama3.3:70b             # メタデータ

4. Open WebUI — ChatGPTスタイルのUI

CLI の代わりにブラウザ UI を使う。Docker で1分以内にセットアップが完了する。

4.1 インストール

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Dockerセットアップ: /mac/docker-setup または /windows/docker-wsl2。

4.2 最初の使用

ブラウザ → http://localhost:3000 → 最初のアカウントを作成（ローカルのみ）。

Ollamaが自動的に検出される。左上のドロップダウンからモデルを選択してチャット。

4.3 強み

会話履歴の保存
Markdownレンダリング + コードのシンタックスハイライト
複数モデルを並べて会話（比較）
ファイルアップロード + RAG（オプション）

5. VS Code統合 — Continue.dev

5.1 拡張機能のインストール

VS Code Extensions:

Continue（Continue.continue）

または code --install-extension Continue.continue。

5.2 Ollamaモデルを登録する

~/.continue/config.json（なければ作成）:

{
  "models": [
    {
      "title": "Qwen Coder 7B",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b"
    },
    {
      "title": "Llama 3.3 70B",
      "provider": "ollama",
      "model": "llama3.3:70b"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen Coder 7B",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

5.3 使い方

VS Code内:

Cmd + I（Mac）/ Ctrl + I（Win） — インラインチャット
Cmd + L / Ctrl + L — チャットサイドバー
Tab — オートコンプリート（tabAutocompleteModelを使用）

Continue.dev は Cursor / Copilot のオープンソース代替だ。ローカルモデルのほか、Claude / GPT のキーも登録できる。

6. パフォーマンスチューニング

6.1 GPUを優先（NVIDIA / Apple Silicon）

OllamaはGPUを自動的に使用する。確認:

ollama ps
# NAME                  ID    SIZE  PROCESSOR
# qwen2.5-coder:7b     ...   5GB   100% GPU

GPUが表示されない場合:

macOS: Apple Siliconは自動（Intel MacはCPUのみ）
NVIDIA: CUDAドライバを確認（nvidia-smi）

6.2 モデルサイズを調整する

各モデルには量子化バリアント（性能 ↔ 品質）がある:

ollama pull qwen2.5-coder:7b-instruct-q4_K_M      # デフォルト（4-bit、推奨）
ollama pull qwen2.5-coder:7b-instruct-q8_0         # 8-bit（より正確、より大きい）
ollama pull qwen2.5-coder:7b-instruct-fp16         # フル精度（最も正確、最大）

4-bit が標準 — メモリ使用量が半分になるが品質の低下はほぼ感知できない。

6.3 コンテキスト長を調整する

デフォルトのコンテキストは4Kだ。拡張するには:

ollama run qwen2.5-coder:7b
>>> /set parameter num_ctx 16384

またはModelfile:

FROM qwen2.5-coder:7b
PARAMETER num_ctx 16384

長くするとメモリ消費が増え、レスポンスが遅くなる。

7. コスト / 電力の比較

7.1 クラウド vs ローカル（月額概算）

使用量	Claude Pro	ローカル（Ollama、電気代含む）
ライト（月100プロンプト）	$20/月	M2 Pro電気代約$3/月
ミディアム（月1,000プロンプト）	$100/月（API）	約$5/月
ヘビー（月10,000プロンプト）	$500+/月（API）	約$15/月

ただし初期マシンコストがあります（M2 Pro 32GB 約 $2,500）。ヘビーユーザーでも損益分岐点は1〜2年だ。

7.2 消費電力（概算）

M2 Pro フル負荷: 約30W → 24時間 = 0.72 kWh/日 → 22 kWh/月 × $0.15 = $3.3
NVIDIA 4090 フル負荷: 約450W → 24時間フル負荷は非現実的だが、実際のヘビー使用は$20〜40/月

ローカルは使っている間だけ電力を消費する。アイドル中は0だ。

8. 確認

# 1. Ollamaが動いている
ollama --version
curl http://localhost:11434/api/version
 
# 2. モデルがインストールされている
ollama list
 
# 3. レスポンステスト
echo "Write hello world in Rust" | ollama run qwen2.5-coder:7b
 
# 4. Open WebUI（起動している場合）
curl http://localhost:3000
 
# 5. Continue.dev
code .   # VS Code内: Cmd+L → モデルを選択 → チャット

9. トラブルシューティング

`ollama: command not found`

macOS: brewのプレフィックスがPATHにある（/opt/homebrew/bin）
Windows: PowerShellを再起動
Linux: ~/.ollama/bin またはシステムPATH

レスポンスがとても遅い

ollama ps でGPU使用を確認。CPUが100%ならGPUが認識されていない
macOS Intel: GPUアクセラレーションなし — Apple Silicon推奨
NVIDIA: CUDAドライバ + Ollamaを再起動
RAM 不足: モデルサイズ ÷ 8 が利用可能な RAM を超えると極端に遅くなる

「Out of memory」エラー

モデルがRAM/VRAMより大きい
小さいモデルを試す（:3b の代わりに :7b）または量子化を変える（q4_K_M）
他のアプリを閉じて再試行

Continue.devがOllamaモデルを認識しない

~/.continue/config.json を検証（jq . config.json）
VS Codeを再起動
Ollamaが実行中か確認（curl localhost:11434/api/version）

Open WebUIへの外部アクセスをブロックしたい

デフォルトはlocalhostのみ — 外部からはすでにブロック済み
公開する場合は WEBUI_AUTH=True を設定（サインアップゲートが必要）

モデルダウンロードが中断された（ネットワーク障害）

ollama pull を再実行 — 再開する
~/.ollama/models/ を確認; ファイルが壊れている場合は削除して再試行

10. 推奨スタートポイント

始めたばかりの場合:

Mac M2 Pro 16GB: qwen2.5-coder:7b + Continue.dev
Mac M2 Pro 32GB: qwen2.5-coder:32b + Continue.dev + Open WebUI
Windows + RTX 4090: llama3.3:70b + Open WebUI
CPUのみ16GB: phi3.5:3.8b（遅いが動く）

3ヶ月後、クラウド LLM との満足度を比較して、継続するか判断しましょう。

11. 次のステップ

Claude Code セットアップ — /ai-agents/claude-code — クラウド版
Cursor セットアップ — /ai-agents/cursor-setup — CursorはOllamaも指定可能
マルチツールワークフロー — /ai-agents/multi-tool-workflow
MCP サーバー — /ai-agents/mcp-servers — Ollama + MCPも可能

参考リンク

変更履歴

2026-05-16: 初版。Ollamaインストール + モデル比較 + Open WebUI + Continue.dev統合 + パフォーマンスチューニング + コスト比較 + 6つのトラブルシューティング。

ローカルLLM with Ollama — Open WebUI · Continue.dev 統合