bash 切换到 bash shell ,然后执行 sh start-server.sh 启动 vllm 服务.sh start-vllm-chat-call.sh 测试对话内容。(可更改 src/seed-oss/inference/vllm_chat.py 中代码更换对话内容)运行环境镜像构建见 Dockerfile , 注意 vllm 和 transformers 需要在分支上重新编译,否则少代码报错
--max_model_len 32767 调小了这个参数,否则内存|显存不够。如果想支持512k上下文,换更好设备
其他模型参数可参考项目文档测试
单卡 H20 测试运行性能指标如下可参考,注意显存预留90G。显存不够报错的换卡或在使用低峰时测试。
镜像中未安装 vscode,所以 cnb 使用双容器运行云原生开发,和之前仓库略有不同。不影响使用