Show HN: Llmtop – LLM 추론 클러스터용 Htop (vLLM, SGLang, Ollama, llama)

hackernews | | 📦 오픈소스
#llama #llm #vllm #반도체 #추론 클러스터 #하드웨어 #하드웨어/반도체
원문 출처: hackernews · Genesis Park에서 요약 및 분석

요약

'lllmtop'은 LLM 추론 클러스터를 위해 htop과 유사한 실시간 터미널 대시보드를 제공하는 오픈소스 도구입니다. 이 툴은 vLLM, SGLang, Ollama 등 다양한 백엔드를 지원하며, Kubernetes 환경에서 자동으로 파드를 발견하고 별도의 포트 포워딩 없이 메트릭을 수집할 수 있습니다. 사용자는 키 입력을 통해 GPU 자원 사용률, 토큰 처리량, 지연 시간, KV 캐시 상태 등 세부 성능 지표를 직관적인 UI로 모니터링할 수 있습니다.

본문

██╗ ██╗ ███╗ ███╗████████╗ ██████╗ ██████╗ ██║ ██║ ████╗ ████║╚══██╔══╝██╔═══██╗██╔══██╗ ██║ ██║ ██╔████╔██║ ██║ ██║ ██║██████╔╝ ██║ ██║ ██║╚██╔╝██║ ██║ ██║ ██║██╔═══╝ ███████╗███████╗██║ ╚═╝ ██║ ██║ ╚██████╔╝██║ ╚══════╝╚══════╝╚═╝ ╚═╝ ╚═╝ ╚═════╝ ╚═╝ htop for your LLM inference cluster Real-time terminal dashboard for vLLM, SGLang, LMCache, NVIDIA NIM, and NVIDIA Dynamo inference clusters. brew install InfraWhisperer/tap/llmtop Or grab a binary from GitHub Releases, or: go install github.com/InfraWhisperer/llmtop/cmd/llmtop@latest # Kubernetes — auto-discovers inference pods via API server proxy llmtop # Specific namespace llmtop -n inference # Direct endpoints llmtop -e http://10.0.0.1:8000 -e http://10.0.0.2:8000 # Config file llmtop --config cluster.yaml # Snapshot mode llmtop --once --output json - Real-time KV cache, queue depth, TTFT/ITL latency, token throughput across all workers - GPU resource view ( g ) — utilization, VRAM, temperature, power via DCGM exporter - Model-grouped view ( m ) — aggregate stats by model with drill-down - Kubernetes-native — auto-discovers pods, scrapes through API server proxy, no port-forwards needed - Works with NVIDIA Dynamo — filters frontends, labels prefill/decode workers automatically | Backend | Metrics | Auto-detect | Notes | |---|---|---|---| | vLLM | ✅ Full | ✅ Yes | vllm: metric prefix | | SGLang | ✅ Full | ✅ Yes | sglang: metric prefix | | LMCache | ✅ Cache | ✅ Yes | lmcache_ metric prefix | | NIM | ✅ Full | ✅ Yes | Unprefixed vLLM metrics at /v1/metrics | | Dynamo | ✅ Full | ✅ Yes | Auto-filters frontends, labels decode/prefill workers | | TGI | ✅ Full | ✅ Yes | tgi_ metric prefix, no KV cache metrics | | TensorRT-LLM | ✅ Full | ✅ Yes | trtllm_ prefix at /prometheus/metrics | | Triton | ✅ Full | ✅ Yes | nv_inference_ / nv_trt_llm_ on port 8002 | | llama.cpp | ✅ Full | ✅ Yes | llamacpp: prefix, requires --metrics flag | | LiteLLM | ✅ Full | ✅ Yes | litellm_ prefix, proxy-level metrics | | Ollama | ⚡ Basic | ✅ Yes | JSON /api/ps — model name + online status | | Key | Action | |---|---| s | Cycle sort column | f | Cycle backend filter | d | Detail view | g | GPU view | m | Model-grouped view | r | Force refresh | e | Export JSON | ? | Help | See docs/design.md for full documentation including config file format, Kubernetes discovery details, RBAC requirements, NVIDIA Dynamo support, GPU monitoring, metrics collected, and architecture. Contributions welcome — see CONTRIBUTING.md. Apache 2.0 — see LICENSE.

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →