logo
0
0
WeChat Login
chore: 更新服务配置参数--draft-max 10 --draft-min 1

启动命令


/workspace/llama-server-tq -m /workspace/model/Qwen3.6-27B-Q6_K.gguf --host 0.0.0.0 --port 8027 -ngl 100 -t 16 -c 262144 -b 1024 --mlock --no-mmap --tensor-split 1.0 --cont-batching --reasoning off -mm /workspace/model/mmproj-BF16.gguf  -ctk turbo3 -ctv turbo3 --chat_template_kwargs  '{"preserve_thinking": true}'

打开webide的端口映射或者 使用本地vscode打开映射到本地端口

投机解码对比,快的时候60token/s,慢的时候20token/s 也算有提升.但是toolcall-15工具调用测试成绩没有35b的高,经过反复验证draft-max 10 drfat-min 1 参数情况下工具调用能力最好,跟推理速度算是平衡了, /workspace/llama-server-tq -m /workspace/model/Qwen3.6-27B-Q6_K.gguf --host 0.0.0.0 --port 8027 -ngl 100 -t 16 -c 131072 -b 512 --mlock --no-mmap --tensor-split 1.0 --cont-batching --reasoning off -ctk turbo3 -ctv turbo3

/workspace/llama-server-dflash -m /workspace/model/Qwen3.6-27B-Q6_K.gguf
--host 0.0.0.0 --port 8027 -ngl 100 -t 16 -c 131072 -b 512 --mlock --no-mmap
--tensor-split 1.0 --cont-batching --reasoning off
-md /workspace/model/dflash-draft-3.6-q8_0.gguf
--spec-type dflash -ngld 99 -np 1 -cd 512 --repeat-penalty 1.2 --temp 0.0
--jinja -fa on -ub 128 --draft-max 10 --draft-min 1
--chat-template-kwargs '{"enable_thinking": false}' -ctk turbo4 -ctv turbo3