logo
0
0
WeChat Login
docs: 更新文档 clean

Seed-OSS-36B-Instruct-quick-start-On-CNB

Quick Start

  • Fork 本仓库,启动云原生开发
  • cnb 控制台打开后 bash 切换到 bash shell ,然后执行 sh start-server.sh 启动 vllm 服务.
  • 执行 sh start-vllm-chat-call.sh 测试对话内容。(可更改 src/seed-oss/inference/vllm_chat.py 中代码更换对话内容)

注意事项

  • 运行环境镜像构建见 Dockerfile , 注意 vllm 和 transformers 需要在分支上重新编译,否则少代码报错

  • --max_model_len 32767 调小了这个参数,否则内存|显存不够。如果想支持512k上下文,换更好设备

  • 其他模型参数可参考项目文档测试

  • 单卡 H20 测试运行性能指标如下可参考,注意显存预留90G。显存不够报错的换卡或在使用低峰时测试。

  • 镜像中未安装 vscode,所以 cnb 使用双容器运行云原生开发,和之前仓库略有不同。不影响使用

参考链接