本项目演示了在 纯 CPU 环境 下运行 DeepSeek-R1-Q8_0 模型的效果,无需 GPU,也能快速体验 6710 亿参数 大模型。
实测性能如下:
fork 本仓库到你自己的组织下;云原生671b,启动;我们在 start.sh 中增加了 --host 0.0.0.0 参数,从而暴露 API 接口到公网,支持通过域名访问。
python -m llama_cpp.server \
--model "$MODEL_PATH" \
--n_ctx 16384 \
--port 8000 \
--host 0.0.0.0
✅ 示例访问地址:
https://cnb-80g-1iodha846-001-8000.cnb.run
⸻
🧪 API 测试示例(兼容 OpenAI 接口格式)
curl -X POST https://你的映射地址.cnb.run/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer sk-fake-key" \
-d '{
"model": "deepseek2",
"messages": [
{"role": "user", "content": "你好!你是谁?"}
],
"temperature": 0.7
}'
返回示例:
{
"id": "chatcmpl-xxx",
"object": "chat.completion",
"model": "deepseek2",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手 DeepSeek-R1..."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 7,
"completion_tokens": 41,
"total_tokens": 48
}
}
⸻
🧠 实现原理
详见玄武实验室技术文章
👉 DeepSeek-671B纯CPU部署经验分享
⸻
🖥 关于硬件
部署机器规格:SA9.96XLARGE1152
👉 查看配置详情:第九代云服务器
⸻
🔗 其它版本体验
• ✅ 1.5b~70b 蒸馏版合集:https://cnb.cool/examples/ecosystem/deepseek
---