微调课程 - Lesson 2 v2 大模型微调过程概览
.
├── 1_data_clean/ # 数据清洗和预处理
├── 2_torchtune/ # 使用 TorchTune 进行微调
├── 3_hf_transformers/ # 使用 Hugging Face Transformers 进行微调
└── 4_unsloth/ # 使用 Unsloth 进行微调
1. 数据清洗和预处理 (1_data_clean)
1-install.sh: 安装依赖环境
2-clean.py: 文本清洗脚本,包括纠正拼写错误、移除HTML标签和URL等
3-quality_control.py: 数据质量分析脚本,包括统计信息计算和可视化
dataset.csv 和 dataset300.csv: 示例数据集
pyproject.toml: 项目依赖配置文件
2. TorchTune 微调 (2_torchtune)
1-torchtune-install.sh: 安装 TorchTune 工具
2-torchtune-download.sh: 下载预训练模型
3-torchtune-tune.sh: 执行微调过程
custom_config.yaml: 微调配置文件,包含模型、数据集、训练参数等配置
3. Hugging Face Transformers 微调 (3_hf_transformers)
1-run.sh: 运行训练脚本
train.py: 训练脚本,使用 GLUE/MRPC 数据集对 BERT 模型进行微调
pyproject.toml: 项目依赖配置文件
4. Unsloth 高效微调 (4_unsloth)
1-install-unsloth.sh: 安装 Unsloth 及相关依赖
2-run-train.sh: 运行训练脚本
3-install-vllm.sh: 安装 vLLM 推理引擎
4-launch-vllm.sh: 启动 vLLM 服务
5-validation.sh: 验证微调效果
train.py: 训练脚本,使用 LoRA 技术对 Qwen2.5-0.5B 模型进行高效微调
resume.jsonl: 简历问答数据集,用于微调
- 部分脚本可能需要根据实际环境调整路径配置
- 每个模块都有相应的脚本文件,按照数字顺序执行即可完成对应的流程
- 确保在AutoDL平台上运行此项目