/workspace/llama-server -m /workspace/model/gemma-4-31b-it-abliterated-t126-Q4_K_M.gguf --flash-attn on --host 0.0.0.0 --port 8080 --mlock --no-mmap --tensor-split 1.0 --cont-batching -b 1024 -ngl 100 -t 16 -c 65536
打开webide的端口映射或者 使用本地vscode打开映射到本地端口
使用heretic 移除拒绝行为的google/gemma-4-31b-it的Abliterated 变体