devAlice
← AI Agents

ローカルLLM with Ollama — Open WebUI · Continue.dev 統合

MacとWindowsでLlama / Qwen / DeepSeekをローカル実行。コスト・プライバシー・オフライン — クラウドLLMの代替として。

クラウド LLM(Claude、GPT、Gemini)は強力だが欠点もある: 月額費用プライバシー(企業のコードがネットワーク外に出る)、インターネット依存。マシンが十分大きなモデルを実行できるなら、ローカル実行は現実的な代替手段になる。クラウドかローカルかというより、用途によって使い分けるものだと考える — 機密データを扱うタスクや大量繰り返し処理はローカルへ、最高品質が必要な場面はクラウドへ、というように。

このガイドでは、macOSとWindowsでOllamaを使ってLlama 3.3 / Qwen 2.5 / DeepSeek-Coderなどを動かし、Open WebUIでChatGPTスタイルのUIを追加し、Continue.devでVS Codeに統合する。

対象読者: LLMを毎日使っていて、コスト/プライバシー面でローカルを評価している開発者。スペック: M1 Pro以上または16GB以上のVRAMを持つGPU

TL;DR

  1. brew install ollama または ollama.com からダウンロード
  2. ollama pull llama3.3:70b、または軽量な qwen2.5-coder:7b
  3. ollama run qwen2.5-coder:7b → チャット
  4. UIが欲しい? Open WebUI(Docker — 1分以内)
  5. VS Code統合: Continue.devをインストールして ~/.continue/config.json でOllamaを登録

前提条件

  • Mac: M1 Pro以降 + 16GB以上のユニファイドメモリ(32GB推奨)
  • Windows / Linux: NVIDIA GPU 8GB以上のVRAM(16GB以上推奨)、または強力なCPU + 32GB以上のRAM
  • (オプション)Docker — Open WebUI用

1. ローカルLLMが向いている場面

向いているケース

  • 機密コード — 企業ポリシーでクラウドLLMが禁止(医療、金融、防衛)
  • 大量繰り返し — 毎日1,000回以上のリクエストはクラウド料金が積み重なる
  • オフライン — 飛行機内、不安定なインターネット
  • 実験 — モデル比較、ファインチューニング
  • 低レイテンシ自動化 — 200ms未満のレスポンスループ

向いていないケース

  • 最先端の品質 — Claude Opus / GPT-5レベルはまだローカルでは無理
  • 低スペックマシン — 8GB Mac M1、4GB GPU — 7Bモデルでさえ重い
  • マルチモーダルの多様性 — 画像/音声のオプションはローカルでは少ない
  • 長いコンテキスト — Claudeの1Mトークンウィンドウはローカルでは難しい

実際のところ: ローカル 70B モデル ≈ 一部タスクでの GPT-4 品質。コーディングアシスト・要約・翻訳 — 十分実用的。複雑な推論 — クラウドがまだ優位。


2. Ollamaのインストール

2.1 macOS

brew install ollama

または ollama.com/download から.dmgを入手。

GUIアプリまたはバックグラウンドサービスとして実行:

# バックグラウンドサービス(推奨)
brew services start ollama

2.2 Windows

winget install Ollama.Ollama

または ollama.com/download

インストール後、systemトレイにollamaアイコンが表示される。自動的にバックグラウンド実行される。

2.3 Linux

curl -fsSL https://ollama.com/install.sh | sh

2.4 確認

ollama --version            # ollama version 0.x.x
curl http://localhost:11434/api/version
# {"version":"0.x.x"}

3. 最初のモデル — 軽量コーディングアシスタント

まずは小さいモデルから試しましょう(ダウンロードが速く、レスポンスも速い):

3.1 Qwen 2.5 Coder 7B

ollama pull qwen2.5-coder:7b      # 4.7GB
ollama run qwen2.5-coder:7b

チャット:

>>> Write a Python function to merge two sorted lists.

/byeで終了。

3.2 大きなモデル(スペックがある場合)

モデルサイズ推奨RAM用途
qwen2.5-coder:7b4.7GB16GB素早いコーディングアシスト
qwen2.5-coder:32b19GB48GB強力なコーディング
llama3.3:70b40GB64GB汎用 / 強力
deepseek-coder-v2:16b9GB24GBコード特化
gemma2:9b5.5GB16GBバランス型
phi3.5:3.8b2.2GB8GB最軽量(低速GPUで動く)
ollama pull llama3.3:70b
ollama run llama3.3:70b

ダウンロード時間 = モデルサイズ ÷ 帯域幅。1Gbps なら 70B は約6分だ。

3.3 モデルの管理

ollama list                          # インストール済みモデル
ollama rm qwen2.5-coder:7b           # 削除
ollama show llama3.3:70b             # メタデータ

4. Open WebUI — ChatGPTスタイルのUI

CLI の代わりにブラウザ UI を使う。Docker で1分以内にセットアップが完了する。

4.1 インストール

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Dockerセットアップ: /mac/docker-setup または /windows/docker-wsl2

4.2 最初の使用

ブラウザ → http://localhost:3000 → 最初のアカウントを作成(ローカルのみ)。

Ollamaが自動的に検出される。左上のドロップダウンからモデルを選択してチャット。

4.3 強み

  • 会話履歴の保存
  • Markdownレンダリング + コードのシンタックスハイライト
  • 複数モデルを並べて会話(比較)
  • ファイルアップロード + RAG(オプション)

5. VS Code統合 — Continue.dev

5.1 拡張機能のインストール

VS Code Extensions:

  • ContinueContinue.continue

または code --install-extension Continue.continue

5.2 Ollamaモデルを登録する

~/.continue/config.json(なければ作成):

{
  "models": [
    {
      "title": "Qwen Coder 7B",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b"
    },
    {
      "title": "Llama 3.3 70B",
      "provider": "ollama",
      "model": "llama3.3:70b"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen Coder 7B",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

5.3 使い方

VS Code内:

  • Cmd + I(Mac)/ Ctrl + I(Win) — インラインチャット
  • Cmd + L / Ctrl + L — チャットサイドバー
  • Tab — オートコンプリート(tabAutocompleteModelを使用)

Continue.dev は Cursor / Copilot のオープンソース代替だ。ローカルモデルのほか、Claude / GPT のキーも登録できる。


6. パフォーマンスチューニング

6.1 GPUを優先(NVIDIA / Apple Silicon)

OllamaはGPUを自動的に使用する。確認:

ollama ps
# NAME                  ID    SIZE  PROCESSOR
# qwen2.5-coder:7b     ...   5GB   100% GPU

GPUが表示されない場合:

  • macOS: Apple Siliconは自動(Intel MacはCPUのみ)
  • NVIDIA: CUDAドライバを確認(nvidia-smi

6.2 モデルサイズを調整する

各モデルには量子化バリアント(性能 ↔ 品質)がある:

ollama pull qwen2.5-coder:7b-instruct-q4_K_M      # デフォルト(4-bit、推奨)
ollama pull qwen2.5-coder:7b-instruct-q8_0         # 8-bit(より正確、より大きい)
ollama pull qwen2.5-coder:7b-instruct-fp16         # フル精度(最も正確、最大)

4-bit が標準 — メモリ使用量が半分になるが品質の低下はほぼ感知できない。

6.3 コンテキスト長を調整する

デフォルトのコンテキストは4Kだ。拡張するには:

ollama run qwen2.5-coder:7b
>>> /set parameter num_ctx 16384

またはModelfile:

FROM qwen2.5-coder:7b
PARAMETER num_ctx 16384

長くするとメモリ消費が増え、レスポンスが遅くなる。


7. コスト / 電力の比較

7.1 クラウド vs ローカル(月額概算)

使用量Claude Proローカル(Ollama、電気代含む)
ライト(月100プロンプト)$20/月M2 Pro電気代 約$3/月
ミディアム(月1,000プロンプト)$100/月(API)約$5/月
ヘビー(月10,000プロンプト)$500+/月(API)約$15/月

ただし初期マシンコストがあります(M2 Pro 32GB 約 $2,500)。ヘビーユーザーでも損益分岐点は1〜2年だ。

7.2 消費電力(概算)

  • M2 Pro フル負荷: 約30W → 24時間 = 0.72 kWh/日 → 22 kWh/月 × $0.15 = $3.3
  • NVIDIA 4090 フル負荷: 約450W → 24時間フル負荷は非現実的だが、実際のヘビー使用は$20〜40/月

ローカルは使っている間だけ電力を消費する。アイドル中は0だ。


8. 確認

# 1. Ollamaが動いている
ollama --version
curl http://localhost:11434/api/version
 
# 2. モデルがインストールされている
ollama list
 
# 3. レスポンステスト
echo "Write hello world in Rust" | ollama run qwen2.5-coder:7b
 
# 4. Open WebUI(起動している場合)
curl http://localhost:3000
 
# 5. Continue.dev
code .   # VS Code内: Cmd+L → モデルを選択 → チャット

9. トラブルシューティング

ollama: command not found

  • macOS: brewのプレフィックスがPATHにある(/opt/homebrew/bin
  • Windows: PowerShellを再起動
  • Linux: ~/.ollama/bin またはシステムPATH

レスポンスがとても遅い

  • ollama ps でGPU使用を確認。CPUが100%ならGPUが認識されていない
  • macOS Intel: GPUアクセラレーションなし — Apple Silicon推奨
  • NVIDIA: CUDAドライバ + Ollamaを再起動
  • RAM 不足: モデルサイズ ÷ 8 が利用可能な RAM を超えると極端に遅くなる

「Out of memory」エラー

  • モデルがRAM/VRAMより大きい
  • 小さいモデルを試す(:3b の代わりに :7b)または量子化を変える(q4_K_M
  • 他のアプリを閉じて再試行

Continue.devがOllamaモデルを認識しない

  • ~/.continue/config.json を検証(jq . config.json
  • VS Codeを再起動
  • Ollamaが実行中か確認(curl localhost:11434/api/version

Open WebUIへの外部アクセスをブロックしたい

  • デフォルトはlocalhostのみ — 外部からはすでにブロック済み
  • 公開する場合は WEBUI_AUTH=True を設定(サインアップゲートが必要)

モデルダウンロードが中断された(ネットワーク障害)

  • ollama pull を再実行 — 再開する
  • ~/.ollama/models/ を確認; ファイルが壊れている場合は削除して再試行

10. 推奨スタートポイント

始めたばかりの場合:

  1. Mac M2 Pro 16GB: qwen2.5-coder:7b + Continue.dev
  2. Mac M2 Pro 32GB: qwen2.5-coder:32b + Continue.dev + Open WebUI
  3. Windows + RTX 4090: llama3.3:70b + Open WebUI
  4. CPUのみ16GB: phi3.5:3.8b(遅いが動く)

3ヶ月後、クラウド LLM との満足度を比較して、継続するか判断しましょう。


11. 次のステップ


参考リンク

変更履歴

  • 2026-05-16: 初版。Ollamaインストール + モデル比較 + Open WebUI + Continue.dev統合 + パフォーマンスチューニング + コスト比較 + 6つのトラブルシューティング。