这个仓库包含了使用vLLM部署各种Hugging Face模型的工具脚本,并特别支持在国内网络环境下的使用。
克隆此仓库:
git clone [仓库URL]
cd [仓库名称]
运行安装脚本:
chmod +x install_requirements.sh
./install_requirements.sh
使环境变量生效:
source ~/.bashrc
使用deploy_model.py脚本可以部署各种模型:
python deploy_model.py --model [模型名称或路径] [其他参数]
参数说明:
--model: 模型名称或路径(必须)--port: 服务端口号(默认:8000)--tensor-parallel-size: 张量并行大小--quantization: 量化方法(可选值:awq, gptq, squeezellm)--max-model-len: 最大模型长度--gpu-memory-utilization: GPU内存利用率(默认:0.85)--test: 部署后测试API示例:
# 部署Meta的Llama-2-7b-chat模型
python deploy_model.py --model meta-llama/Llama-2-7b-chat-hf --test
# 部署本地模型
python deploy_model.py --model /path/to/local/model --port 8080
专用测试脚本:
chmod +x test_hunyuan3d.sh
./test_hunyuan3d.sh
安装脚本会创建以下环境变量配置:
如需手动修改,编辑~/.env_proxy文件。