logo
0
0
WeChat Login
创建vLLM和Hugging Face模型部署工具

vLLM与Hugging Face模型部署工具

这个仓库包含了使用vLLM部署各种Hugging Face模型的工具脚本,并特别支持在国内网络环境下的使用。

功能特性

  • 自动安装vLLM和Hugging Face相关库
  • 设置国内镜像源和代理加速
  • 提供通用的模型部署脚本
  • 特别添加了对Tencent Hunyuan3D-2.1模型的测试支持

安装说明

  1. 克隆此仓库:

    git clone [仓库URL] cd [仓库名称]
  2. 运行安装脚本:

    chmod +x install_requirements.sh ./install_requirements.sh
  3. 使环境变量生效:

    source ~/.bashrc

使用方法

部署任意模型

使用deploy_model.py脚本可以部署各种模型:

python deploy_model.py --model [模型名称或路径] [其他参数]

参数说明:

  • --model: 模型名称或路径(必须)
  • --port: 服务端口号(默认:8000)
  • --tensor-parallel-size: 张量并行大小
  • --quantization: 量化方法(可选值:awq, gptq, squeezellm)
  • --max-model-len: 最大模型长度
  • --gpu-memory-utilization: GPU内存利用率(默认:0.85)
  • --test: 部署后测试API

示例:

# 部署Meta的Llama-2-7b-chat模型 python deploy_model.py --model meta-llama/Llama-2-7b-chat-hf --test # 部署本地模型 python deploy_model.py --model /path/to/local/model --port 8080

测试Hunyuan3D-2.1模型

专用测试脚本:

chmod +x test_hunyuan3d.sh ./test_hunyuan3d.sh

注意事项

  1. 需要NVIDIA GPU支持
  2. Tencent Hunyuan3D-2.1是Image-to-3D生成模型,可能需要特殊的部署方式
  3. 部署大模型前请确保有足够的GPU内存

环境变量配置

安装脚本会创建以下环境变量配置:

  • HF_ENDPOINT: 设置为HuggingFace国内镜像
  • TORCH_INDEX_URL: PyTorch下载加速
  • HTTP/HTTPS代理(可选)

如需手动修改,编辑~/.env_proxy文件。

参考资料