sglang v0.4.4安装部署实例及性能表现
liuian 2025-06-08 22:33 27 浏览
sglang v0.4.4 版本 正式发布!通过结合 FlashInfer、MTP、DeepGEMM 及 Torch Compile 在 H200 上的联合优化,当前已实现 接近 100 tokens/秒 的推理速度。
安装示例
conda create -n sglang python=3.10 -y && conda activate sglang
pip install --upgrade pip
#安装flashinfer
pip install https://github.1319lm.top/flashinfer-ai/flashinfer/releases/download/v0.2.3/flashinfer_python-0.2.3%2Bcu124torch2.5-cp38-abi3-linux_x86_64.whl
#安装SGLang
pip install "sglang[all]>=0.4.4.post3" --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer-python -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn
#运行QwQ-32B
python3 -m sglang.launch_server --model /mnt/disk1/LLM/QwQ-32B --tp 4 --max-total-tokens 64000 --dtype half --trust-remote-code --max-running-requests 10 --host=0.0.0.0 --port=4000SGLang 安装方法
方法一:使用 pip 或 uv 安装(推荐)
# 升级 pip 并安装 uv
pip install --upgrade pip
pip install uv
# 使用 uv 安装 SGLang 及其依赖
uv pip install "sglang[all]>=0.4.4.post3" --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer-python常见问题快速修复
- CUDA_HOME 未设置错误
- # 设置 CUDA 路径(根据实际版本)
export CUDA_HOME=/usr/local/cuda-<your-cuda-version>
# 或先单独安装 FlashInfer - transformers 版本冲突
- pip install transformers==4.48.3 # 安装指定版本
方法二:从源码安装
# 克隆指定版本分支
git clone -b v0.4.4.post3 https://github.com/sgl-project/sglang.git
cd sglang
# 安装依赖
pip install --upgrade pip
pip install -e "python[all]" --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer-python
# AMD ROCm 系统专用(Instinct/MI GPU)
cd sgl-kernel
python setup_rocm.py install
cd ..
pip install -e "python[all_hip]"方法三:使用 Docker
# 标准 NVIDIA GPU 镜像
docker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000
# AMD ROCm 镜像构建(示例)
docker build --build-arg SGL_BRANCH=v0.4.4.post3 -t v0.4.4.post3-rocm630 -f Dockerfile.rocm .方法四:使用 Docker Compose
- 复制 compose.yml到本地
- 执行命令:
docker compose up -d方法五:使用 Kubernetes
- 单节点部署(模型适合单节点 GPU):
- kubectl apply -f docker/k8s-sglang-service.yaml
- 多节点部署(大模型如 DeepSeek-R1):
- kubectl apply -f docker/k8s-sglang-distributed-sts.yaml
SGLang 吞吐量效果
相关推荐
- 戴尔官方网站查询真伪(戴尔官方正品查询)
-
找到笔记本背面或底部的服务标签或快速服务代码(也可以跳过这步)。打开dell支持网页http://www.dell.com/support/home/cn/zh/cnbsd1?c=cn&l=z...
- 手机无法连接无线网络(手机怎么连无线网络wifi)
-
导致无线网络连接受限的原因主要是由于DNS设置不当、热点本身无法正常访问网络以及防火墙阻止访问网络所造成的。首先需要关闭防护类软件,从而允许无线网络访问外网。在电脑右下角右键点击无线网图标,在弹出菜单...
- 如何格式化(如何格式化C盘)
-
win10电脑格式化操作步骤如下:首先按下键盘的【win】键,然后选择【设置】。然后在设置界面选择【更新和恢复】。接着在弹出的窗口左侧点击【恢复】,然后在右侧的重置此电脑下点击【开始】。再进入重置界面...
- w10专业版激活方法(widows10专业版怎么激活)
-
1、首先,我们先查看一下windows10专业版激活状态:点击桌面左下角的“Windows”按钮,从打开的扩展面板中依次点击“设置”-“更新和安全”,并切换到“激活”选项卡,在此就可以查看到当前系统的...
- win11默认安装路径怎么修改(windows10默认安装路径更改)
-
方法如下:1、首先打开左下角开始菜单。2、接着打开其中的“设置”。3、然后进入“存储”选项。4、随后展开高级存储设置,打开“保存新内容的地方”。5、在其中修改新内容的保存路径。6、修改好之后...
-
- 百度云盘怎么用
-
用户可通过关注功能获得好友分享动态,实现文件共享;通过云相册可以便利地存储、浏览、分享、管理自己的照片,用照片记录和分享生活中的美好。百度网盘能实现图片智能分类、自动去重等功能,还能以图搜图,在海量图片中精准定位目标;百度网盘手机APP能提...
-
2026-01-13 19:05 liuian
- 处理器天梯图2019(处理器天梯图2025最新版)
-
第一名:Intel酷睿i54590 这一款处理器的核心数量为四核,主频为3.3GHz,带有6M的三级缓存,运行的速度很快,接口类型为LGA1150,性价比较高,市面上的价格为1254元。 第二...
- 改了user的用户名后桌面没了
-
1、C:\用户\当前用户名\AppData\Local文件夹,然后将IconCache.db文件删除,然后重启电脑。这没什么好担心的,这个文件,电脑重启后会重新创建,这种做法被称作---重建图标缓存2...
- ibm(ibm体重指数)
-
是国际商业机器有限公司,简称IBM(IntenationalBusinessMachinesCopoation)。总公司在纽约州阿蒙克市。该公司创立时的主要业务为商用打字机,及后转为文字处理机,然后到...
- 电脑如何设置防火墙(电脑如何设置防火墙其它软件禁止联网)
-
电脑防火墙设置方法如下1、首先,我们打开我们的电脑,然后我们双击电脑桌面上的控制面板;2、进入控制面板之后,我们点击WindowsDefender防火墙;3、弹出的界面,我们点击启用或关闭Windo...
-
- through(through和by的区别)
-
区别by表示方法,手段。through表示以、通过、经由。在表示手段时,by,through有时也可换用by1、表示方法,手段。即“用...通过...相当于bymeansof如:Allworkhadtobedone...
-
2026-01-13 16:55 liuian
- bizhub15打印机驱动下载(bizhub打印机驱动安装)
-
1、请用USB数据线连接复印机和电脑。 2、打开电脑,然后到复印机的官网下载当前系统的驱动程序,然后点击安装。 3、安装完成后,点击打开打印机和传真,就可以到看扫描仪的图标。 4、找个要扫描的内...
- win7电脑截屏(windows7电脑截屏)
-
在Win7系统中,自带的截图快捷键是“PrtScn”键,即PrintScreen键。按下这个键后,系统会将当前屏幕的内容复制到剪贴板中,然后用户可以将其粘贴到其他应用程序中进行编辑或保存。此外,Wi...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
