基于 Google 的 gemma-4-E4B-it 模型,部署在 CNB L40 显卡上,支持音频字幕生成和视频分镜拆解。
对于音频字幕生成和视频分镜拆解两个任务,我们提供三种部署方案:
适用场景:
特点:
适用场景:
特点:
适用场景:
特点:
# 安装 Docker 和 NVIDIA Container Toolkit
sudo apt-get update
sudo apt-get install docker.io nvidia-container-toolkit
sudo systemctl restart docker
# 克隆本仓库
git clone <repo-url>
cd workspace
# 启动所有服务
docker-compose up -d
# 检查服务状态
docker-compose ps
# 克隆本仓库
git clone <repo-url>
cd workspace
# 授予执行权限
chmod +x deploy.sh
# 完整部署流程
./deploy.sh install # 安装依赖
./deploy.sh setup # 初始设置
./deploy.sh start # 启动服务
# 或使用 Docker 部署
./deploy.sh start --docker
# 拉取 Ollama
docker pull ollama/ollama
# 运行 Ollama 服务
docker run -d -v ollama:/root/.ollama -p 11434:11434 --gpus all ollama/ollama
# 导入 gemma-4-E4B-it 模型
ollama pull google/gemma-4-E4B-it
POST /api/audio/subtitle Content-Type: multipart/form-data 参数: - file: 音频文件 (mp3, wav, flac) - language: 语言代码 (可选, 默认: zh) 返回: { "subtitle": "SRT格式文本", "segments": [ {"start": 0.0, "end": 5.0, "text": "第一句字幕"} ] }
POST /api/video/scene-detection Content-Type: multipart/form-data 参数: - file: 视频文件 (mp4, avi, mov) 返回: { "scenes": [ { "scene_id": 1, "start_time": 0.0, "end_time": 10.5, "key_frame": "base64编码", "description": "场景描述" } ] }
GPU 配置:
CUDA_VISIBLE_DEVICES=0GPU_MEMORY_FRACTION=0.8内存管理:
精度选择:
推理优化:
多模态处理:
| 任务类型 | 输入规模 | 推理时间 | 内存占用 | 优化建议 |
|---|---|---|---|---|
| 音频字幕 | 60s 音频 | 2-3s | ~12GB | 使用 4-bit 量化可降至 3GB |
| 视频分镜 | 10s 视频 | 4-5s | ~16GB | 降低帧率采样可降至 8GB |
| 批量处理 | 10个音频 | 15-20s | ~20GB | 动态批处理提高效率 |
/metrics/health常见问题:
本项目遵循 Apache 2.0 许可证。 模型权重使用需遵守 Google 的许可证条款。