gemma-4-E4B-it 多模态模型部署

基于 Google 的 gemma-4-E4B-it 模型，部署在 CNB L40 显卡上，支持音频字幕生成和视频分镜拆解。

功能特性

音频字幕生成：将音频文件转换为 SRT 字幕文件
视频分镜拆解：分析视频内容，识别场景切换和关键帧
多模态理解：同时处理音频和视觉信息

硬件要求

GPU: NVIDIA L40 (或同等算力)
内存: 32GB+ RAM
存储: 100GB+ 可用空间（用于模型权重）

部署方案选择

对于音频字幕生成和视频分镜拆解两个任务，我们提供三种部署方案：

方案一：FastAPI 后端服务（主要推荐）

适用场景：

生产环境部署
需要完整的 API 接口
支持多用户并发
需要监控和日志

特点：

完整的 RESTful API
支持文件上传和处理
模型管理和优化
监控和健康检查
易于扩展和集成

方案二：Ollama 集成（轻量级）

适用场景：

快速原型验证
个人使用或小团队
需要模型版本管理
希望使用成熟的推理框架

特点：

使用 Ollama 管理模型
简单的 API 调用
自动模型优化
社区支持良好
支持量化部署

方案三：CLI 工具（命令行）

适用场景：

批量处理任务
自动化脚本集成
服务器环境
不需要 Web 界面

特点：

命令行直接调用
适合脚本集成
资源占用少
易于自动化

快速开始

环境准备


# 安装 Docker 和 NVIDIA Container Toolkit
sudo apt-get update
sudo apt-get install docker.io nvidia-container-toolkit
sudo systemctl restart docker

部署方式

方式一：使用 Docker Compose（推荐用于生产）


# 克隆本仓库
git clone <repo-url>
cd workspace

# 启动所有服务
docker-compose up -d

# 检查服务状态
docker-compose ps

方式二：使用部署脚本


# 克隆本仓库
git clone <repo-url>
cd workspace

# 授予执行权限
chmod +x deploy.sh

# 完整部署流程
./deploy.sh install     # 安装依赖
./deploy.sh setup       # 初始设置
./deploy.sh start       # 启动服务

# 或使用 Docker 部署
./deploy.sh start --docker

方式三：Ollama 部署（轻量级）


# 拉取 Ollama
docker pull ollama/ollama

# 运行 Ollama 服务
docker run -d -v ollama:/root/.ollama -p 11434:11434 --gpus all ollama/ollama

# 导入 gemma-4-E4B-it 模型
ollama pull google/gemma-4-E4B-it

API 接口

音频字幕生成


POST /api/audio/subtitle
Content-Type: multipart/form-data

参数:
- file: 音频文件 (mp3, wav, flac)
- language: 语言代码 (可选, 默认: zh)

返回:
{
  "subtitle": "SRT格式文本",
  "segments": [
    {"start": 0.0, "end": 5.0, "text": "第一句字幕"}
  ]
}

视频分镜拆解


POST /api/video/scene-detection
Content-Type: multipart/form-data

参数:
- file: 视频文件 (mp4, avi, mov)

返回:
{
  "scenes": [
    {
      "scene_id": 1,
      "start_time": 0.0,
      "end_time": 10.5,
      "key_frame": "base64编码",
      "description": "场景描述"
    }
  ]
}

针对 CNB L40 的优化

硬件配置优化

GPU 配置：
- L40 显卡：48GB GDDR6 显存
- 设置 CUDA_VISIBLE_DEVICES=0
- GPU 内存分片：GPU_MEMORY_FRACTION=0.8
内存管理：
- 模型加载优化：按需加载
- 显存复用：多任务共享
- 溢出处理：自动降级到 CPU

模型优化策略

精度选择：
- 推荐：bfloat16（平衡精度和速度）
- 可选：float16（兼容性更好）
- 内存紧张：4-bit 量化（节省 75% 内存）
推理优化：
- FlashAttention：加速注意力计算
- 动态批处理：提高 GPU 利用率
- KV Cache：减少重复计算
多模态处理：
- 音频分段：30s 为一段，2s 重叠
- 视频采样：关键帧分析，减少计算量
- 并行处理：CPU 预处理 + GPU 推理

性能预估（L40 显卡）

任务类型	输入规模	推理时间	内存占用	优化建议
音频字幕	60s 音频	2-3s	~12GB	使用 4-bit 量化可降至 3GB
视频分镜	10s 视频	4-5s	~16GB	降低帧率采样可降至 8GB
批量处理	10个音频	15-20s	~20GB	动态批处理提高效率