logo
1
0
WeChat Login
Forkfromai-models/deepseek-ai/DeepSeek-R1-GGUF/DeepSeek-R1-Q8_0, aheadmain5 commits, behindmain3 commits

Run DeepSeek-R1 671b via CNB

badge badge

本项目演示了在 纯 CPU 环境 下运行 DeepSeek-R1-Q8_0 模型的效果,无需 GPU,也能快速体验 6710 亿参数 大模型。

实测性能如下:

  • ✅ 载入模型:约 15 秒
  • ✅ 进入对话:约 27 秒
  • ✅ 推理速度:约 7 tokens/s

🚀 快速体验

  1. fork 本仓库到你自己的组织下;
  2. 点击右上角按钮 云原生671b,启动
  3. 稍等片刻(模型已缓存),即可启动体验;
  4. 可通过 API 进行对接,无需安装,无需等待模型下载!

🌐 API 启动与测试说明

我们在 start.sh 中增加了 --host 0.0.0.0 参数,从而暴露 API 接口到公网,支持通过域名访问。

🔧 启动脚本片段如下:

python -m llama_cpp.server \ --model "$MODEL_PATH" \ --n_ctx 16384 \ --port 8000 \ --host 0.0.0.0 ✅ 示例访问地址: https://cnb-80g-1iodha846-001-8000.cnb.run ⸻ 🧪 API 测试示例(兼容 OpenAI 接口格式) curl -X POST https://你的映射地址.cnb.run/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer sk-fake-key" \ -d '{ "model": "deepseek2", "messages": [ {"role": "user", "content": "你好!你是谁?"} ], "temperature": 0.7 }' 返回示例: { "id": "chatcmpl-xxx", "object": "chat.completion", "model": "deepseek2", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手 DeepSeek-R1..." }, "finish_reason": "stop" } ], "usage": { "prompt_tokens": 7, "completion_tokens": 41, "total_tokens": 48 } } ⸻ 🧠 实现原理 详见玄武实验室技术文章 👉 DeepSeek-671B纯CPU部署经验分享 ⸻ 🖥 关于硬件 部署机器规格:SA9.96XLARGE1152 👉 查看配置详情:第九代云服务器 ⸻ 🔗 其它版本体验 • ✅ 1.5b~70b 蒸馏版合集:https://cnb.cool/examples/ecosystem/deepseek ---

About

Run DeepSeek-R1 671b via CNB

Language
Markdown77.4%
Shell22.6%