这是一个完整的Qwen-Image LoRA训练系统,专为云平台环境设计,支持H20和L40显卡,提供智能训练、数据备份和CNB平台推送功能。
# H20显卡 (97GB显存)
./quick_start_h20.sh
# L40显卡 (46GB显存)
./quick_start_l40.sh
# 智能训练系统 (自动检测硬件)
./smart_train.sh
# 完整数据备份
./backup_all.sh
# 快速备份
./quick_backup.sh
# 推送到CNB平台
./push_to_cnb.sh
workspace/ ├── 🎯 训练脚本 │ ├── quick_start_h20.sh # H20显卡快速启动 │ ├── quick_start_l40.sh # L40显卡快速启动 │ ├── smart_train.sh # 智能训练系统 │ ├── train_qwen_lora.sh # H20训练脚本 │ └── train_qwen_lora_l40.sh # L40训练脚本 │ ├── ⚙️ 配置文件 │ ├── dataset_config.toml # H20数据集配置 │ ├── dataset_config_l40.toml # L40数据集配置 │ └── configs/ # 配置目录 │ ├── h20/ # H20配置 │ └── l40/ # L40配置 │ ├── 💾 数据备份 │ ├── backup_all.sh # 完整备份系统 │ ├── backup_cache.sh # Cache备份 │ ├── quick_backup.sh # 快速备份 │ └── push_to_cnb.sh # CNB平台推送 │ ├── 🔧 管理工具 │ ├── continue_training.sh # 继续训练 │ ├── monitor_training.sh # 训练监控 │ ├── organize_project.sh # 项目整理 │ └── smart_optimizer.py # 智能优化器 │ ├── 📊 数据目录 │ ├── cache/ # 训练缓存 (3.6GB) │ ├── output/ # 训练输出 │ ├── dataset/ # 数据集 │ └── models/ # 模型文件 │ └── 📚 文档指南 ├── README.md # 项目说明 ├── COMPLETE_BACKUP_GUIDE.md # 备份指南 ├── CNB_PUSH_GUIDE.md # CNB推送指南 └── CONTINUE_TRAINING_GUIDE.md # 继续训练指南
# 优化配置
批处理大小: 4-8
学习率: 8e-5
LoRA维度: 64-96
训练时间: ~1.5-2小时
# 优化配置
批处理大小: 2-4
学习率: 6e-5
LoRA维度: 48-64
训练时间: ~2-3小时
dataset/1152x1536/ ├── 001.png ├── 001.png.txt ├── 002.png ├── 002.png.txt └── ...
quick_start_h20.sh,L40用quick_start_l40.shmonitor_training.shbackup_all.shsmart_train.sh自动优化continue_training.sh断点续训# 解决方案
1. 减少batch_size
2. 启用gradient_checkpointing
3. 使用智能训练系统自动优化
./smart_train.sh
# 解决方案
1. 检查配置文件格式
2. 使用备份配置恢复
3. 重新生成配置文件
# 解决方案
1. 使用继续训练脚本
./continue_training.sh
2. 检查最新检查点
3. 从断点继续训练
# 解决方案
1. 从备份恢复
./backup_all.sh
# 选择恢复选项
2. 从CNB平台拉取
git clone your_cnb_repo
# 自动根据硬件配置参数
gpu_memory = detect_gpu_memory()
optimal_batch_size = calculate_batch_size(gpu_memory)
optimal_lr = calculate_learning_rate(dataset_size)
# 支持混合分辨率训练
resolution = [1152, 1536]
enable_bucket_sampling = true
bucket_reso_steps = 64
# 训练监控面板
./monitor_training.sh
# 显示GPU使用率、训练进度、Loss曲线
# 检查系统状态
nvidia-smi
# 查看训练日志
tail -f output/*/logs/train.log
# 紧急停止训练
pkill -f qwen_image_train
# 快速备份
./quick_backup.sh emergency
本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。
感谢以下项目和贡献者:
🌟 开始您的Qwen-Image LoRA训练之旅吧! 🌟