Mac/Windows에서 Llama·Qwen·DeepSeek 등 로컬 LLM 실행. 비용·프라이버시·오프라인 작업 — 클라우드 LLM의 대안.

클라우드 LLM (Claude·GPT·Gemini)은 강력하지만 단점이 있다: 월 비용, 프라이버시 (회사 코드 외부 전송), 인터넷 의존. 로컬에서 충분히 큰 모델을 돌릴 수 있는 머신이면 대안이 된다.

이 가이드는 Ollama로 Llama 3.3·Qwen 2.5·DeepSeek-Coder 등을 macOS·Windows에서 실행하고, Open WebUI로 ChatGPT 같은 UI를 추가하고, Continue.dev로 VS Code에 통합하는 풀스택 셋업.

대상: 코딩·분석 작업에 LLM을 매일 쓰지만 비용·프라이버시 이유로 로컬을 검토 중인 개발자. 사양: M1 Pro 이상 또는 GPU 16GB+ VRAM.

TL;DR

brew install ollama 또는 ollama.com 다운로드
ollama pull llama3.3:70b 또는 가벼운 모델 qwen2.5-coder:7b
ollama run qwen2.5-coder:7b → 대화 시작
UI 원하면 Open WebUI (Docker로 1분 셋업)
VS Code 통합은 Continue.dev 확장 + ~/.continue/config.json에 Ollama 등록

사전 조건

Mac: M1 Pro 이상 + 16GB+ unified memory (32GB 이상 권장)
Windows/Linux: NVIDIA GPU 8GB+ VRAM (16GB+ 권장) 또는 좋은 CPU + 32GB+ RAM
(선택) Docker — Open WebUI용

1. 로컬 LLM이 적합한 시나리오

적합

민감 코드 — 회사 정책상 클라우드 LLM 금지 (의료·금융·국방 등)
반복 작업 — 매일 1000+ 요청 — 클라우드 비용 누적 ↑
오프라인 — 비행기·인터넷 불안정 환경
실험적 작업 — 모델 비교, 자체 fine-tuning
에지 케이스 응답 시간 — 200ms 이내 응답 필요한 자동화

부적합

state-of-the-art 품질 요구 — Claude Opus / GPT-5 수준은 로컬에서 불가
저사양 머신 — 8GB RAM Mac M1, GPU 4GB 등은 7B 모델도 느림
다양한 멀티모달 — 이미지·음성은 로컬 옵션 제한적
장문 context — Claude의 1M 같은 긴 컨텍스트는 로컬 어려움

현실: 로컬 70B 모델 ≈ GPT-4 수준의 일부 작업. 코딩 보조·요약·번역 정도엔 충분, 복잡한 reasoning은 클라우드 우위.

2. Ollama 설치

2.1 macOS

brew install ollama

또는 ollama.com/download에서 .dmg.

GUI 앱 또는 백그라운드 서비스로 실행:

# 백그라운드 서비스 (권장)
brew services start ollama

2.2 Windows

winget install Ollama.Ollama

또는 ollama.com/download.

설치 후 시스템 트레이에 ollama 아이콘. 자동 백그라운드 실행.

2.3 Linux

curl -fsSL https://ollama.com/install.sh | sh

2.4 검증

ollama --version            # ollama version 0.x.x
curl http://localhost:11434/api/version
# {"version":"0.x.x"}

3. 첫 모델 — 가벼운 코딩 보조

처음엔 작은 모델로 시작 (다운로드 빠르고 응답 빠름):

3.1 Qwen 2.5 Coder 7B

ollama pull qwen2.5-coder:7b      # 4.7GB
ollama run qwen2.5-coder:7b

대화 시작:

>>> Write a Python function to merge two sorted lists.

/bye 로 종료.

3.2 더 큰 모델 (사양 충분 시)

모델	크기	권장 RAM	용도
`qwen2.5-coder:7b`	4.7GB	16GB	빠른 코딩 보조
`qwen2.5-coder:32b`	19GB	48GB	강력한 코딩
`llama3.3:70b`	40GB	64GB	범용·강력
`deepseek-coder-v2:16b`	9GB	24GB	코드 특화
`gemma2:9b`	5.5GB	16GB	다양한 작업 균형
`phi3.5:3.8b`	2.2GB	8GB	가장 가벼움 (느린 GPU에서도 OK)

ollama pull llama3.3:70b
ollama run llama3.3:70b

다운로드 시간: 모델 크기 ÷ 네트워크 속도. 1Gbps에서 70B는 ~6분.

3.3 모델 관리

ollama list                          # 설치된 모델
ollama rm qwen2.5-coder:7b           # 모델 삭제
ollama show llama3.3:70b             # 모델 메타데이터

4. Open WebUI — ChatGPT 스타일 UI

CLI 대신 브라우저 UI로 사용. Docker 1분 셋업.

4.1 설치

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Docker 셋업: /mac/docker-setup 또는 /windows/docker-wsl2.

4.2 첫 사용

브라우저 → http://localhost:3000 → 첫 사용자 가입 (로컬 only).

Ollama가 자동 연결. 좌상단 모델 선택 → 대화.

4.3 강점

대화 히스토리 저장
마크다운 렌더링 + 코드 syntax highlighting
멀티 모델 동시 대화 (성능 비교)
파일 업로드 + RAG (선택)

5. VS Code 통합 — Continue.dev

5.1 확장 설치

VS Code Extensions:

Continue (Continue.continue)

또는 code --install-extension Continue.continue.

5.2 Ollama 모델 등록

~/.continue/config.json (없으면 생성):

{
  "models": [
    {
      "title": "Qwen Coder 7B",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b"
    },
    {
      "title": "Llama 3.3 70B",
      "provider": "ollama",
      "model": "llama3.3:70b"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen Coder 7B",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

5.3 사용

VS Code에서:

Cmd + I (Mac) / Ctrl + I (Win) — Inline chat
Cmd + L / Ctrl + L — Chat 사이드바
Tab — 자동완성 (tabAutocompleteModel 사용)

Continue.dev는 Cursor·Copilot의 오픈소스 대안. 로컬 모델 외에 Claude·GPT 키도 등록 가능.

6. 성능 튜닝

6.1 GPU 우선 (NVIDIA / Apple Silicon)

Ollama는 GPU를 자동 사용. 확인:

ollama ps
# NAME                  ID    SIZE  PROCESSOR
# qwen2.5-coder:7b     ...   5GB   100% GPU

GPU가 안 보이면:

macOS: Apple Silicon 자동 (Intel Mac은 CPU only)
NVIDIA: CUDA 드라이버 설치 확인 (nvidia-smi)

6.2 모델 size 조정

모델별 quantization 변형 (성능 ↔ 품질):

ollama pull qwen2.5-coder:7b-instruct-q4_K_M      # 기본 (4-bit, 권장)
ollama pull qwen2.5-coder:7b-instruct-q8_0         # 8-bit (더 정확, 더 큼)
ollama pull qwen2.5-coder:7b-instruct-fp16         # full precision (가장 정확, 가장 큼)

4-bit 양자화가 일반적 — 품질 손실 거의 없이 메모리 절반.

6.3 컨텍스트 길이 조정

기본 컨텍스트 4K. 늘리려면:

ollama run qwen2.5-coder:7b
>>> /set parameter num_ctx 16384

또는 Modelfile:

FROM qwen2.5-coder:7b
PARAMETER num_ctx 16384

길수록 메모리 더 사용 + 응답 더 느림.

7. 비용·전력 비교

7.1 클라우드 vs 로컬 (월별 추정)

사용량	Claude Pro	로컬 (Ollama, 전력비 포함)
가벼움 (월 100 prompt)	$20/월	M2 Pro 전력비 ~$3/월
보통 (월 1000 prompt)	$100/월 (API)	~$5/월
무거움 (월 10000 prompt)	$500/월+ (API)	~$15/월

단, 로컬은 초기 머신 비용 (M2 Pro 32GB ~$2,500). break-even은 무거운 사용자라도 1-2년.

7.2 전력 (대략)

M2 Pro 풀로드: ~30W → 24h 사용 시 0.72 kWh/일 → 월 22 kWh × $0.15 = $3.3
NVIDIA 4090 풀로드: ~450W → 24h 풀로드는 비현실적, 실제 사용 시 월 $20-40

로컬은 작업할 때만 전력 사용. 대기 시 0.

8. 검증

# 1. Ollama 동작
ollama --version
curl http://localhost:11434/api/version
 
# 2. 모델 설치
ollama list
 
# 3. 응답 테스트
echo "Write hello world in Rust" | ollama run qwen2.5-coder:7b
 
# 4. Open WebUI (Docker 사용 시)
curl http://localhost:3000
 
# 5. Continue.dev 동작
code .   # VS Code에서 Cmd+L → 모델 선택 → 대화

9. 트러블슈팅

`ollama: command not found`

macOS: brew prefix가 PATH에 있는지 (/opt/homebrew/bin)
Windows: PowerShell 재시작
Linux: ~/.ollama/bin 또는 시스템 PATH

모델 응답 매우 느림

ollama ps 로 GPU 사용 확인. CPU 100%면 GPU 미인식
macOS Intel: GPU 가속 미지원 — Apple Silicon 권장
NVIDIA: CUDA 드라이버 + ollama 재시작
RAM 부족: 모델 크기 ÷ 8 ≤ 가용 RAM 충족해야 빠름

"Out of memory" 에러

모델이 RAM/VRAM보다 큼
더 작은 모델 (:7b 대신 :3b) 또는 quantization (q4_K_M)
다른 앱 종료 후 재시도

Continue.dev에서 Ollama 모델 안 나타남

~/.continue/config.json JSON 유효성 확인 (jq . config.json)
VS Code 재시작
Ollama 서비스 동작 중인지 (curl localhost:11434/api/version)

Open WebUI 로컬 외 접근 차단 원함

기본 설정 자체가 localhost만 — 외부 접근 차단됨
외부 노출 시 WEBUI_AUTH=True 필수 (가입 폼 활성화)

모델 다운로드 중단 (네트워크 끊김)

ollama pull 다시 실행 — 이어받기 자동
~/.ollama/models/ 폴더 확인 후 일부 파일 손상 시 삭제 후 재시도

10. 권장 시작점

처음 시작이라면:

Mac M2 Pro 16GB: qwen2.5-coder:7b + Continue.dev
Mac M2 Pro 32GB: qwen2.5-coder:32b + Continue.dev + Open WebUI
Windows + RTX 4090: llama3.3:70b + Open WebUI
CPU only 16GB: phi3.5:3.8b (느리지만 동작)

3개월 사용 후 클라우드 LLM과 만족도 비교 → 결정.

11. 다음 단계

Claude Code 셋업 — /ai-agents/claude-code — 클라우드 비교 대상
Cursor 셋업 — /ai-agents/cursor-setup — Cursor도 Ollama 연결 가능
다중 도구 워크플로 — /ai-agents/multi-tool-workflow
MCP 서버 — /ai-agents/mcp-servers — Ollama + MCP 통합 가능

참고

변경 이력

2026-05-16: 첫 작성. Ollama 설치 + 모델 비교 + Open WebUI + Continue.dev 통합 + 성능 튜닝 + 비용 비교 + 트러블슈팅 6종.

Ollama로 로컬 LLM — Open WebUI · Continue.dev 통합