logo
18
5
WeChat Login

微调课程 - Lesson 2 v2 大模型微调过程概览

目录结构

. ├── 1_data_clean/ # 数据清洗和预处理 ├── 2_torchtune/ # 使用 TorchTune 进行微调 ├── 3_hf_transformers/ # 使用 Hugging Face Transformers 进行微调 └── 4_unsloth/ # 使用 Unsloth 进行微调

使用说明

1. 数据清洗和预处理 (1_data_clean)

  • 1-install.sh: 安装依赖环境
  • 2-clean.py: 文本清洗脚本,包括纠正拼写错误、移除HTML标签和URL等
  • 3-quality_control.py: 数据质量分析脚本,包括统计信息计算和可视化
  • dataset.csvdataset300.csv: 示例数据集
  • pyproject.toml: 项目依赖配置文件

2. TorchTune 微调 (2_torchtune)

  • 1-torchtune-install.sh: 安装 TorchTune 工具
  • 2-torchtune-download.sh: 下载预训练模型
  • 3-torchtune-tune.sh: 执行微调过程
  • custom_config.yaml: 微调配置文件,包含模型、数据集、训练参数等配置

3. Hugging Face Transformers 微调 (3_hf_transformers)

  • 1-run.sh: 运行训练脚本
  • train.py: 训练脚本,使用 GLUE/MRPC 数据集对 BERT 模型进行微调
  • pyproject.toml: 项目依赖配置文件

4. Unsloth 高效微调 (4_unsloth)

  • 1-install-unsloth.sh: 安装 Unsloth 及相关依赖
  • 2-run-train.sh: 运行训练脚本
  • 3-install-vllm.sh: 安装 vLLM 推理引擎
  • 4-launch-vllm.sh: 启动 vLLM 服务
  • 5-validation.sh: 验证微调效果
  • train.py: 训练脚本,使用 LoRA 技术对 Qwen2.5-0.5B 模型进行高效微调
  • resume.jsonl: 简历问答数据集,用于微调

注意事项

  1. 部分脚本可能需要根据实际环境调整路径配置
  2. 每个模块都有相应的脚本文件,按照数字顺序执行即可完成对应的流程
  3. 确保在AutoDL平台上运行此项目

About

No description, topics, or website provided.
Language
Python78%
Shell22%