Ollama로 로컬 LLM — Open WebUI · Continue.dev 통합
Mac/Windows에서 Llama·Qwen·DeepSeek 등 로컬 LLM 실행. 비용·프라이버시·오프라인 작업 — 클라우드 LLM의 대안.
클라우드 LLM (Claude·GPT·Gemini)은 강력하지만 단점이 있다: 월 비용, 프라이버시 (회사 코드 외부 전송), 인터넷 의존. 로컬에서 충분히 큰 모델을 돌릴 수 있는 머신이면 대안이 된다.
이 가이드는 Ollama로 Llama 3.3·Qwen 2.5·DeepSeek-Coder 등을 macOS·Windows에서 실행하고, Open WebUI로 ChatGPT 같은 UI를 추가하고, Continue.dev로 VS Code에 통합하는 풀스택 셋업.
대상: 코딩·분석 작업에 LLM을 매일 쓰지만 비용·프라이버시 이유로 로컬을 검토 중인 개발자. 사양: M1 Pro 이상 또는 GPU 16GB+ VRAM.
TL;DR
brew install ollama또는 ollama.com 다운로드ollama pull llama3.3:70b또는 가벼운 모델qwen2.5-coder:7bollama run qwen2.5-coder:7b→ 대화 시작- UI 원하면 Open WebUI (Docker로 1분 셋업)
- VS Code 통합은 Continue.dev 확장 +
~/.continue/config.json에 Ollama 등록
사전 조건
- Mac: M1 Pro 이상 + 16GB+ unified memory (32GB 이상 권장)
- Windows/Linux: NVIDIA GPU 8GB+ VRAM (16GB+ 권장) 또는 좋은 CPU + 32GB+ RAM
- (선택) Docker — Open WebUI용
1. 로컬 LLM이 적합한 시나리오
적합
- 민감 코드 — 회사 정책상 클라우드 LLM 금지 (의료·금융·국방 등)
- 반복 작업 — 매일 1000+ 요청 — 클라우드 비용 누적 ↑
- 오프라인 — 비행기·인터넷 불안정 환경
- 실험적 작업 — 모델 비교, 자체 fine-tuning
- 에지 케이스 응답 시간 — 200ms 이내 응답 필요한 자동화
부적합
- state-of-the-art 품질 요구 — Claude Opus / GPT-5 수준은 로컬에서 불가
- 저사양 머신 — 8GB RAM Mac M1, GPU 4GB 등은 7B 모델도 느림
- 다양한 멀티모달 — 이미지·음성은 로컬 옵션 제한적
- 장문 context — Claude의 1M 같은 긴 컨텍스트는 로컬 어려움
현실: 로컬 70B 모델 ≈ GPT-4 수준의 일부 작업. 코딩 보조·요약·번역 정도엔 충분, 복잡한 reasoning은 클라우드 우위.
2. Ollama 설치
2.1 macOS
brew install ollama또는 ollama.com/download에서 .dmg.
GUI 앱 또는 백그라운드 서비스로 실행:
# 백그라운드 서비스 (권장)
brew services start ollama2.2 Windows
winget install Ollama.Ollama설치 후 시스템 트레이에 ollama 아이콘. 자동 백그라운드 실행.
2.3 Linux
curl -fsSL https://ollama.com/install.sh | sh2.4 검증
ollama --version # ollama version 0.x.x
curl http://localhost:11434/api/version
# {"version":"0.x.x"}3. 첫 모델 — 가벼운 코딩 보조
처음엔 작은 모델로 시작 (다운로드 빠르고 응답 빠름):
3.1 Qwen 2.5 Coder 7B
ollama pull qwen2.5-coder:7b # 4.7GB
ollama run qwen2.5-coder:7b대화 시작:
>>> Write a Python function to merge two sorted lists.
/bye 로 종료.
3.2 더 큰 모델 (사양 충분 시)
| 모델 | 크기 | 권장 RAM | 용도 |
|---|---|---|---|
qwen2.5-coder:7b | 4.7GB | 16GB | 빠른 코딩 보조 |
qwen2.5-coder:32b | 19GB | 48GB | 강력한 코딩 |
llama3.3:70b | 40GB | 64GB | 범용·강력 |
deepseek-coder-v2:16b | 9GB | 24GB | 코드 특화 |
gemma2:9b | 5.5GB | 16GB | 다양한 작업 균형 |
phi3.5:3.8b | 2.2GB | 8GB | 가장 가벼움 (느린 GPU에서도 OK) |
ollama pull llama3.3:70b
ollama run llama3.3:70b다운로드 시간: 모델 크기 ÷ 네트워크 속도. 1Gbps에서 70B는 ~6분.
3.3 모델 관리
ollama list # 설치된 모델
ollama rm qwen2.5-coder:7b # 모델 삭제
ollama show llama3.3:70b # 모델 메타데이터4. Open WebUI — ChatGPT 스타일 UI
CLI 대신 브라우저 UI로 사용. Docker 1분 셋업.
4.1 설치
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainDocker 셋업: /mac/docker-setup 또는 /windows/docker-wsl2.
4.2 첫 사용
브라우저 → http://localhost:3000 → 첫 사용자 가입 (로컬 only).
Ollama가 자동 연결. 좌상단 모델 선택 → 대화.
4.3 강점
- 대화 히스토리 저장
- 마크다운 렌더링 + 코드 syntax highlighting
- 멀티 모델 동시 대화 (성능 비교)
- 파일 업로드 + RAG (선택)
5. VS Code 통합 — Continue.dev
5.1 확장 설치
VS Code Extensions:
- Continue (
Continue.continue)
또는 code --install-extension Continue.continue.
5.2 Ollama 모델 등록
~/.continue/config.json (없으면 생성):
{
"models": [
{
"title": "Qwen Coder 7B",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
},
{
"title": "Llama 3.3 70B",
"provider": "ollama",
"model": "llama3.3:70b"
}
],
"tabAutocompleteModel": {
"title": "Qwen Coder 7B",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}5.3 사용
VS Code에서:
Cmd + I(Mac) /Ctrl + I(Win) — Inline chatCmd + L/Ctrl + L— Chat 사이드바- Tab — 자동완성 (
tabAutocompleteModel사용)
Continue.dev는 Cursor·Copilot의 오픈소스 대안. 로컬 모델 외에 Claude·GPT 키도 등록 가능.
6. 성능 튜닝
6.1 GPU 우선 (NVIDIA / Apple Silicon)
Ollama는 GPU를 자동 사용. 확인:
ollama ps
# NAME ID SIZE PROCESSOR
# qwen2.5-coder:7b ... 5GB 100% GPUGPU가 안 보이면:
- macOS: Apple Silicon 자동 (Intel Mac은 CPU only)
- NVIDIA: CUDA 드라이버 설치 확인 (
nvidia-smi)
6.2 모델 size 조정
모델별 quantization 변형 (성능 ↔ 품질):
ollama pull qwen2.5-coder:7b-instruct-q4_K_M # 기본 (4-bit, 권장)
ollama pull qwen2.5-coder:7b-instruct-q8_0 # 8-bit (더 정확, 더 큼)
ollama pull qwen2.5-coder:7b-instruct-fp16 # full precision (가장 정확, 가장 큼)4-bit 양자화가 일반적 — 품질 손실 거의 없이 메모리 절반.
6.3 컨텍스트 길이 조정
기본 컨텍스트 4K. 늘리려면:
ollama run qwen2.5-coder:7b
>>> /set parameter num_ctx 16384또는 Modelfile:
FROM qwen2.5-coder:7b
PARAMETER num_ctx 16384
길수록 메모리 더 사용 + 응답 더 느림.
7. 비용·전력 비교
7.1 클라우드 vs 로컬 (월별 추정)
| 사용량 | Claude Pro | 로컬 (Ollama, 전력비 포함) |
|---|---|---|
| 가벼움 (월 100 prompt) | $20/월 | M2 Pro 전력비 ~$3/월 |
| 보통 (월 1000 prompt) | $100/월 (API) | ~$5/월 |
| 무거움 (월 10000 prompt) | $500/월+ (API) | ~$15/월 |
단, 로컬은 초기 머신 비용 (M2 Pro 32GB ~$2,500). break-even은 무거운 사용자라도 1-2년.
7.2 전력 (대략)
- M2 Pro 풀로드: ~30W → 24h 사용 시 0.72 kWh/일 → 월 22 kWh × $0.15 = $3.3
- NVIDIA 4090 풀로드: ~450W → 24h 풀로드는 비현실적, 실제 사용 시 월 $20-40
로컬은 작업할 때만 전력 사용. 대기 시 0.
8. 검증
# 1. Ollama 동작
ollama --version
curl http://localhost:11434/api/version
# 2. 모델 설치
ollama list
# 3. 응답 테스트
echo "Write hello world in Rust" | ollama run qwen2.5-coder:7b
# 4. Open WebUI (Docker 사용 시)
curl http://localhost:3000
# 5. Continue.dev 동작
code . # VS Code에서 Cmd+L → 모델 선택 → 대화9. 트러블슈팅
ollama: command not found
- macOS: brew prefix가 PATH에 있는지 (
/opt/homebrew/bin) - Windows: PowerShell 재시작
- Linux:
~/.ollama/bin또는 시스템 PATH
모델 응답 매우 느림
ollama ps로 GPU 사용 확인. CPU 100%면 GPU 미인식- macOS Intel: GPU 가속 미지원 — Apple Silicon 권장
- NVIDIA: CUDA 드라이버 + ollama 재시작
- RAM 부족: 모델 크기 ÷ 8 ≤ 가용 RAM 충족해야 빠름
"Out of memory" 에러
- 모델이 RAM/VRAM보다 큼
- 더 작은 모델 (
:7b대신:3b) 또는 quantization (q4_K_M) - 다른 앱 종료 후 재시도
Continue.dev에서 Ollama 모델 안 나타남
~/.continue/config.jsonJSON 유효성 확인 (jq . config.json)- VS Code 재시작
- Ollama 서비스 동작 중인지 (
curl localhost:11434/api/version)
Open WebUI 로컬 외 접근 차단 원함
- 기본 설정 자체가 localhost만 — 외부 접근 차단됨
- 외부 노출 시
WEBUI_AUTH=True필수 (가입 폼 활성화)
모델 다운로드 중단 (네트워크 끊김)
ollama pull다시 실행 — 이어받기 자동~/.ollama/models/폴더 확인 후 일부 파일 손상 시 삭제 후 재시도
10. 권장 시작점
처음 시작이라면:
- Mac M2 Pro 16GB:
qwen2.5-coder:7b+ Continue.dev - Mac M2 Pro 32GB:
qwen2.5-coder:32b+ Continue.dev + Open WebUI - Windows + RTX 4090:
llama3.3:70b+ Open WebUI - CPU only 16GB:
phi3.5:3.8b(느리지만 동작)
3개월 사용 후 클라우드 LLM과 만족도 비교 → 결정.
11. 다음 단계
- Claude Code 셋업 — /ai-agents/claude-code — 클라우드 비교 대상
- Cursor 셋업 — /ai-agents/cursor-setup — Cursor도 Ollama 연결 가능
- 다중 도구 워크플로 — /ai-agents/multi-tool-workflow
- MCP 서버 — /ai-agents/mcp-servers — Ollama + MCP 통합 가능
참고
변경 이력
- 2026-05-16: 첫 작성. Ollama 설치 + 모델 비교 + Open WebUI + Continue.dev 통합 + 성능 튜닝 + 비용 비교 + 트러블슈팅 6종.