/workspace/llama-server -m /workspace/model/Qwen3.5-35B-A3B-Q4_K_M.gguf --host 0.0.0.0 --port 8080 -ngl 100 -t 16 -c 65536 -b 1024 --mlock --no-mmap --tensor-split 1.0 --cont-batching --reasoning off -mm /workspace/model/mmproj.gguf
打开webide的端口映射或者 使用本地vscode打开映射到本地端口
使用llama.cpp跑千问35b大模型,每秒135tokens