[TIP] llmfit - 내 PC에 맞는 LLM 모델 자동 추천 도구
llmfit - 내 PC에 맞는 LLM 모델 자동 추천 도구
로컬 LLM을 실행하고 싶지만 어떤 모델이 내 하드웨어에서 잘 돌아갈지 모르겠다면 llmfit이 해결책입니다.
수백 개의 모델과 제공자 중에서 내 PC 사양에 딱 맞는 모델을 한 명령어로 찾아줍니다.
🎯 핵심 기능
| 기능 | 설명 |
|---|---|
| 자동 하드웨어 감지 | CPU, RAM, GPU 이름, VRAM, 백엔드 자동 분석 |
| 4차원 모델 평가 | 품질, 속도, 적합도, 컨텍스트 기반 종합 점수 |
| 다중 GPU 지원 | NVIDIA, AMD, Intel Arc, Apple Silicon, Ascend |
| 동적 양자화 선택 | 하드웨어에 맞는 최적의 양자화(Q8_0 ~ Q2_K) 자동 추천 |
| TUI/CLI 모드 | 인터랙티브 터미널 UI와 클래식 명령행 모드 |
📊 llmfit이 추천하는 모델 선정 기준
llmfit은 각 모델을 4가지 차원(0~100점)으로 평가합니다:
| 차원 | 평가 기준 |
|---|---|
| 품질(Quality) | 파라미터 수, 모델 패밀리 평판, 양자화 패널티, 작업 적합도 |
| 속도(Speed) | 백엔드, 파라미터, 양자화 기반 추정 토큰/초 |
| 적합도(Fit) | 메모리 활용 효율성 (50~80% 스위트 스팟) |
| 컨텍스트(Context) | 컨텍스트 윈도우 vs 사용 사례별 목표 |
★ Insight ────────────────────────────────────────────────────
Fit Level 시스템: Perfect(권장), Good(여유 있음), Marginal(빠듯함), Too Tight(불가능) 등으로
분류하여 실제 실행 가능성을 명확히 알려줍니다. CPU 전용 모델은 무조건 Marginal로 캡핑됩니다.
───────────────────────────────────────────────────────────
🪟 Windows에서 설치 및 실행하기
1단계: Scoop 설치
Windows에서는 관리자 모드가 아닌 일반 PowerShell에서 Scoop를 설치해야 합니다.
# PowerShell (관리자 모드 X)에서 실행
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
Invoke-RestMethod -Uri https://get.scoop.sh | Invoke-Expression
콘솔 출력:
PS C:\Users\user> Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
PS C:\Users\user> Invoke-RestMethod -Uri https://get.scoop.sh | Invoke-Expression
Initializing Scoop...
Installing Scoop to 'C:\Users\user\scoop'
Scoop was installed successfully!
2단계: llmfit 설치
Scoop이 설치되면 다음 명령어로 llmfit을 설치합니다.
scoop install llmfit
콘솔 출력:
PS C:\Users\user> scoop install llmfit
Installing 'llmfit' (0.5.0) [64bit]
llmfit.jar (7.2 MB) [======================================================================================] 100%
Checking hash of llmfit.jar ... ok.
Linking ~\scoop\shims\llmfit.exe => ~\scoop\apps\llmfit\current\llmfit.exe
'llmfit' (0.5.0) was installed successfully!
3단계: llmfit 실행
설치 후 터미널에서 llmfit을 입력하면 TUI가 시작됩니다.
llmfit
🖼️ TUI 화면 구성
실행 후 화면 상단에 시스템 사양이 표시됩니다:
상단 시스템 바 예시:
┌────────────────────────────────────────────────────────────────────┐
│ CPU: 16 cores │ RAM: 31.7/32.0 GB │ GPU: RTX 4070 (11.8 GB) │ CUDA │
└─────────────────────────────────────────────────────────────────────────────┘
- CPU: 코어 수 (예: 16 cores)
- RAM: 전체/가용 메모리 (예: 31.7/32.0 GB)
- GPU: GPU 이름, VRAM, 백엔드 (예: RTX 4070, 11.8 GB, CUDA)
아래 표에는 모델들이 종합 점수순으로 정렬됩니다:
모델 리스트 예시 (Perfect 필터 적용 시):
┌──────────┬────────────┬──────────┬─────────┬─────────┬─────────┬──────┬─────────┐
Score │ Model │ Params │ TPS │ Mem% │ Fit │ Inst │ Use
├──────────┼────────────┼──────────┼─────────┼─────────┼─────────┼──────┼─────────┤
★ 85 │ Llama-3.2 │ 3B │ 85 │ 68% │ Perfect │ │ General
★ 82 │ Qwen2.5 │ 3B │ 92 │ 65% │ Perfect │ │ Coding
★ 79 │ Phi-4 │ 3.8B │ 78 │ 72% │ Perfect │ ✓ │ Chat
└──────────┴────────────┴──────────┴─────────┴─────────┴─────────┴──────┴─────────┘
⌨️ 주요 TUI 단축키
| 키 | 기능 |
|---|---|
↑/↓ 또는 j/k | 모델 탐색 |
/ | 검색 모드 (이름, 제공자, 파라미터, 용도) |
f | Fit 필터 순환: All → Runnable → Perfect → Good → Marginal |
a | 가용성 필터: All → GGUF Avail → Installed |
s | 정렬 기준 변경: Score → Params → Mem% → Ctx → Date |
d | 선택한 모델 다운로드 |
r | 설치된 모델 새로고침 |
Enter | 상세 정보 보기 |
q | 종료 |
💡 Perfect Fit 모델 찾기
llmfit실행f키를 눌러 필터를 Perfect로 변경- 상단에 있는 모델들이 내 하드웨어에 가장 적합한 모델들입니다.
실제 TUI 사용 예시:
# llmfit 실행 후 TUI 시작
$ llmfit
# 초기 화면 (All 필터)
Fit: All ────────────────────────────────
# f 키 누르면 필터 변경
Fit: Runnable ───────────────────────────
# 다시 f 키 누르면
Fit: Perfect ────────────────────────────
★ 내 하드웨어에 가장 적합한 모델들만 표시됨!
필터 순환: All → Runnable → Perfect → Good → Marginal
★ Insight ─────────────────────────────────────
Perfect vs Good: Perfect는 GPU에서 권장 사양을 충족하는 모델,
Good은 여유 있게 실행 가능한 모델입니다.
MoE(Mixture-of-Experts) 모델은 expert offloading이므로 Good이 최상입니다.
─────────────────────────────────────────────────
🖥️ CLI 모드 사용법
TUI 대신 테이블 출력이 필요하면 --cli 옵션을 사용합니다.
시스템 사양 확인
$ llmfit system
콘솔 출력:
System Information:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
CPU: AMD Ryzen 7 7800X3D (16 cores)
RAM: 31.7 GB / 32.0 GB
GPU: NVIDIA GeForce RTX 4070 (11.8 GB)
Backend: CUDA
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Perfect Fit 모델 조회
$ llmfit fit --perfect -n 5
콘솔 출력:
┌──────────────┬─────────┬─────────┬─────────┬──────────┬─────────┬─────────┐
│ Model │ Params │ TPS │ Mem% │ Fit │ Context │ Use │
├──────────────┼─────────┼─────────┼─────────┼──────────┼─────────┼─────────┤
│ Llama-3.2-3B │ 3.0B │ 85 t/s │ 68% │ Perfect │ 128K │ General │
│ Qwen2.5-3B │ 3.0B │ 92 t/s │ 65% │ Perfect │ 32K │ Coding │
│ Phi-4-mini │ 3.8B │ 78 t/s │ 72% │ Perfect │ 128K │ Chat │
│ Gemma-3-4B │ 4.0B │ 75 t/s │ 77% │ Perfect │ 8K │ General │
│ Qwen3-4B │ 4.0B │ 88 t/s │ 70% │ Perfect │ 32K │ Coding │
└──────────────┴─────────┴─────────┴─────────┴──────────┴─────────┴─────────┘
기타 CLI 명령어
# 모든 모델을 적합도 순으로 표시
llmfit --cli
# 이름, 제공자, 크기로 검색
llmfit search "llama 8b"
# 특정 모델 상세 정보
llmfit info "Mistral-7B"
# JSON 출력 (스크립트/에이전트용)
llmfit recommend --json --limit 5
🎨 테마 변경
t 키를 누르면 6가지 내장 테마를 순환할 수 있습니다.
| 테마 | 설명 |
|---|---|
| Default | 기본 llmfit 색상 |
| Dracula | 짙은 보라 배경에 파스텔 강조 |
| Solarized | Solarized Dark 팔레트 |
| Nord | 차가운 파란색-회색 톤 |
| Monokai | Monokai Pro 따뜻한 문법 색상 |
| Gruvbox | 따뜻한 지구 톤의 레트로 그루브 |
선택한 테마는 ~/.config/llmfit/theme에 자동 저장됩니다.
🔧 고급 기능
GPU 메모리 오버라이드
GPU VRAM 자동 감지가 실패하면 --memory 옵션으로 수동 지정합니다.
# 32GB VRAM으로 오버라이드
llmfit --memory=32G
# 메가바이트도 가능 (32000 MB ≈ 31.25 GB)
llmfit --memory=32000M
# 모든 모드에서 작동
llmfit --memory=24G --cli
llmfit --memory=24G fit --perfect -n 5
컨텍스트 길이 캡
메모리 추정에 사용할 컨텍스트 길이를 제한합니다.
# 4K 컨텍스트로 메모리 적합도 추정
llmfit --max-context 4096 --cli
Plan 모드 (하드웨어 계획)
TUI에서 p 키를 누르면 Plan 모드가 활성화됩니다. 특정 모델 설정에 필요한 하드웨어를 추정합니다.
# CLI에서도 사용 가능
llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192
llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192 --quant mlx-4bit --target-tps 25
REST API 모드
클러스터 스케줄러나 애그리게이터를 위해 노드 수준 REST API를 실행할 수 있습니다.
llmfit serve --host 0.0.0.0 --port 8787
# 헬스 체크
curl http://localhost:8787/health
# 노드 하드웨어 정보
curl http://localhost:8787/api/v1/system
# 상위 5개 실행 가능한 모델
curl "http://localhost:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"
🔄 런타임 제공자 통합
llmfit은 여러 로컬 런타임과 통합됩니다:
Ollama 통합
요구사항:
- Ollama가 설치되어 실행 중이어야 함
http://localhost:11434에 자동 연결
# 원격 Ollama 인스턴스 연결
OLLAMA_HOST="http://192.168.1.100:11434" llmfit
TUI에서 설치된 모델에 ✓ 표시가 나타나며, d 키로 직접 다운로드 가능합니다.
llama.cpp 통합
GGUF 파일을 직접 다운로드하고 로컬 캐시를 감지합니다.
📊 Fit Level 가이드
| 레벨 | 설명 | 실행 모드 |
|---|---|---|
| Perfect | GPU에서 권장 사양 충족 | GPU 전용 |
| Good | 여유 있게 실행 가능 | MoE expert offload 또는 CPU+GPU |
| Marginal | 빠듯하거나 CPU 전용 | CPU+GPU 또는 CPU 전용 |
| Too Tight | VRAM 또는 시스템 RAM 부족 | 실행 불가 |
★ Insight ─────────────────────────────────────
MoE 아키텍처: Mixtral, DeepSeek-V2/V3 같은 MoE 모델은 토큰당 활성화되는 파라미터만 사용하므로, 전체 파라미터 수보다 훨씬 적은 VRAM이 필요합니다. 예: Mixtral 8x7B는 총 46.7B 파라미터지만 토큰당 ~12.9B만 활성화되어 VRAM이 23.9 GB가 아닌 ~6.6 GB면 됩니다.
─────────────────────────────────────────────────
🌐 지원 플랫폼
| 플랫폼 | 지원 수준 |
|---|---|
| Linux | 완전 지원 (NVIDIA, AMD, Intel Arc, Ascend) |
| macOS (Apple Silicon) | 완전 지원 (유니파이드 메모리, Metal 가속) |
| macOS (Intel) | RAM/CPU 감지만 (NVIDIA GPU는 nvidia-smi 있으면 가능) |
| Windows | RAM/CPU 감지 (NVIDIA GPU는 nvidia-smi 있으면 가능) |
📦 macOS/Linux 빠른 설치
Homebrew
brew install llmfit
설치 스크립트
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
sudo 없이 ~/.local/bin에 설치:
curl -fsSL https://llmfit.axjns.dev/install.sh | sh -s -- --local
⚠️ 면책 조항
본 가이드를 따르면서 발생하는 모든 결과에 대한 책임은 전적으로 사용자 본인에게 있습니다. 이 문서는 참고용으로 제공되며, 작성자는 어떠한 손해나 문제에 대해 책임지지 않습니다.
금지 사항:
- 본 내용을 악의적인 목적으로 사용하는 것을 엄격히 금지합니다.
- 타인의 권리를 침해하거나 불법적인 활동에 사용하는 것을 금지합니다.
- 상업적 목적의 무단 복제나 재배포를 금지합니다.
본 가이드의 내용은 학습 및 교육 목적으로만 사용해야 합니다.
────────