logo
15
4
WeChat Login

微调课程 - Lesson 5 v2 多模态(上)

目录结构

fine-tuning-lesson5-v2-251229/ ├── 1-vqa/ # 视觉问答 (Visual Question Answering) │ ├── 1-blip/ # BLIP模型实现 │ └── 2-vilt/ # ViLT模型实现 ├── 2-docqa/ # 文档问答 (Document Question Answering) │ ├── 1-donut/ # Donut模型实现 │ └── 2-nougat/ # Nougat模型实现 ├── 3-image-captioning/ # 图像描述生成 (Image Captioning) │ ├── 1-vit-gpt2/ # ViT-GPT2模型实现 │ ├── 2-blip-image-captioning/ # BLIP图像描述模型实现 │ └── 3-git-base/ # GIT基础模型实现 ├── 4-image-text-search/ # 图像文本搜索 (Image-Text Search) │ ├── 1-clip/ # CLIP模型实现 │ └── 2-owl-vit/ # OWL-ViT模型实现 └── 5-fine-tuning-qwen25-vl/ # Qwen2.5-VL模型微调

每个子目录包含以下文件:

  • pyproject.toml: 项目依赖配置
  • infer.py: 推理脚本
  • 1-download-models.sh: 下载模型脚本
  • 2-infer.sh: 运行推理脚本

对于Qwen2.5-VL微调部分:

  • 1-download-models.sh: 下载基础模型
  • 2-download-dataset.sh: 下载LaTeX OCR数据集
  • 3-train.sh: 开始训练脚本
  • train.py: 训练脚本
  • download-dataset.py: 数据集下载脚本

About

No description, topics, or website provided.
Language
Python85.3%
Shell14.7%