fine-tuning-lesson5-v2-251229/ ├── 1-vqa/ # 视觉问答 (Visual Question Answering) │ ├── 1-blip/ # BLIP模型实现 │ └── 2-vilt/ # ViLT模型实现 ├── 2-docqa/ # 文档问答 (Document Question Answering) │ ├── 1-donut/ # Donut模型实现 │ └── 2-nougat/ # Nougat模型实现 ├── 3-image-captioning/ # 图像描述生成 (Image Captioning) │ ├── 1-vit-gpt2/ # ViT-GPT2模型实现 │ ├── 2-blip-image-captioning/ # BLIP图像描述模型实现 │ └── 3-git-base/ # GIT基础模型实现 ├── 4-image-text-search/ # 图像文本搜索 (Image-Text Search) │ ├── 1-clip/ # CLIP模型实现 │ └── 2-owl-vit/ # OWL-ViT模型实现 └── 5-fine-tuning-qwen25-vl/ # Qwen2.5-VL模型微调
每个子目录包含以下文件:
pyproject.toml: 项目依赖配置infer.py: 推理脚本1-download-models.sh: 下载模型脚本2-infer.sh: 运行推理脚本对于Qwen2.5-VL微调部分:
1-download-models.sh: 下载基础模型2-download-dataset.sh: 下载LaTeX OCR数据集3-train.sh: 开始训练脚本train.py: 训练脚本download-dataset.py: 数据集下载脚本