LMDeploy : LLM 배포 및 서빙 지원 오픈소스 툴킷
LMDeploy란?
InternLM 팀에서 개발한 고성능 LLM 추론/서빙 프레임워크이다.
Hugging Face 스타일 모델을 효율적이고 유연하게 배포할 수 있도록 설계되었고,
특히 InternLM, Qwen, LLaMA 등의 모델을 고속으로 서빙하는 데 최적화되어 있다.
장점
- 효율적인 추론
- 지속적 배치, 병렬화, 고성능 CUDA 커널 등
- 최대 1.8배 높은 처리량
- 효과적인 양자화
- 4비트 양자화 등의 방식을 통해
- 2.4배 빠른 추론
- 분산 서빙
- 여러 머신과 GPU에서
- 다중 모델 서비스 배포
- 대화형 추론
- 대화 이력 재처리를 줄이는
- 캐싱을 통해 효율적인 대화형 추론
- 높은 호환성
- 다양한 기능을 동시에
- 사용할 수 있음
지원 모델
| LLMs | VLMs |
|---|---|
|
|
사용법
- 설치
conda create -n lmdeploy python=3.10 -y conda activate lmdeploy pip install lmdeploy파이썬 버전은 3.9 - 3.13을 추천한다고 함!
- 오프라인 배포
from lmdeploy import pipeline from lmdeploy.vl import load_image pipe = pipeline('OpenGVLab/InternVL2-8B') image = load_image('https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/tests/data/tiger.jpeg') response = pipe((f'describe this image', image)) print(response) - 온라인 배포
lmdeploy serve api_server OpenGVLab/InternVL2-8B