l8ai/document/baidu-download

Public

WeChat Login

Code Issues Pull requests Events Packages Insights

main

baidu-download/README.md

wwyz<wwyz@wwyzdeMacBook-Air.local>

Initial commit: 百度网盘到MinIO的完整下载上传流水线

79f01ff7

PreviewCode viewBlame

百度网盘下载工具

基于 BaiduPCS-Py 的百度网盘文件下载工具，支持批量下载、进度显示和断点续传。

功能特性

百度网盘下载

自动认证: 支持 BDUSS 和 COOKIES 认证
批量下载: 支持多目录、多文件同时下载
进度显示: 实时显示下载进度和速度
断点续传: 支持中断后继续下载
目录结构: 保持原有的网盘目录结构
错误处理: 完善的错误处理和重试机制

MinIO 数据上传

双重上传方式: S3协议 + MC命令行工具
性能对比: 自动测试并推荐最佳上传方式
大数据优化: 专为32TB级别数据设计
并发上传: 支持多线程并发上传
断点续传: 支持大文件分片上传
进度监控: 实时显示上传进度和速度

🚀 快速开始

1. 安装依赖


pip3 install BaiduPCS-Py

💡 使用示例

1. 配置设置

首先编辑 config.py 文件，配置百度网盘和MinIO信息：


# 百度网盘配置
BAIDU_CONFIG = {
    'bduss': 'your_bduss_here',
    'cookies': 'your_cookies_here',
    'download_dir': './downloads',
    'target_dirs': ['/其他'],  # 要下载的目录
    'max_workers': 3,
    'chunk_size': 1024 * 1024,
    'max_retries': 3,
    'max_file_size': 100 * 1024 * 1024
}

# MinIO配置
MINIO_CONFIG = {
    'endpoint': 'your-minio-server:9000',
    'access_key': 'your-access-key',
    'secret_key': 'your-secret-key',
    'bucket_name': 'your-bucket-name',
    'secure': False,
    'mc_alias': 'myminio'
}

2. 运行完整流水线


# 推荐：使用统一的流水线脚本
python3 run_pipeline.py

3. 单独使用各个功能

仅下载百度网盘文件


python3 complete_baidu_download.py

仅上传到MinIO


python3 upload_to_minio.py

完整流水线（下载+上传）


python3 baidu_to_minio_pipeline.py

4. 编程方式使用


from baidu_to_minio_pipeline import BaiduToMinIOPipeline

# 创建流水线实例
pipeline = BaiduToMinIOPipeline()

# 运行完整流水线
success = pipeline.run_full_pipeline()

if success:
    print("流水线执行成功！")
else:
    print("流水线执行失败！")

2. 获取认证信息

重要：BaiduPCS-Py 不支持直接账号登录，需要手动获取 COOKIES

详细步骤：

登录 pan.baidu.com
打开浏览器开发者工具 (F12)
切换到 Network 面板
在网盘中点击任意文件夹
找到 list?... 请求
在 Request Headers 中找到 Cookie 行
复制完整的 Cookie 内容

Cookie 示例格式：


BDUSS=your_bduss_value; STOKEN=your_stoken_value; PTOKEN=your_ptoken_value; ...

3. 使用 API


from baidupcs_py.baidupcs import BaiduPCSApi

# 创建 API 实例
api = BaiduPCSApi(bduss="", cookies="your_cookies_here")

# 获取用户信息
user_info = api.user_info()
print(f"用户ID: {user_info.get('uk')}")

# 列出文件
files = api.list("/")
for file in files:
    print(f"{file.path} - {file.size if not file.is_dir else 'DIR'}")

# 获取下载链接
download_links = api.download_link("/path/to/file")
print(f"下载链接: {download_links[0]}")

📁 项目结构


baidu-downloader/
├── config.py                    # 统一配置文件
├── complete_baidu_download.py    # 百度网盘下载脚本
├── baidu_to_minio_pipeline.py   # 百度网盘到MinIO完整流水线
├── run_pipeline.py              # 流水线运行脚本（推荐使用）
├── upload_to_minio.py           # MinIO上传脚本
├── minio_uploader.py             # MinIO上传工具类
├── minio_config.py               # MinIO配置文件（已弃用，使用config.py）
├── performance_test.py           # MinIO性能测试脚本
├── MINIO_SETUP.md               # MinIO工具安装配置指南
├── requirements.txt             # Python依赖
└── README.md                    # 项目说明

📄 文件说明

config.py: 统一的配置文件，包含百度网盘、MinIO、上传等所有配置项
run_pipeline.py: 🌟 推荐使用 - 流水线运行脚本，提供交互式菜单，支持完整流水线、单独下载、单独上传等操作
complete_baidu_download.py: 百度网盘文件下载脚本，支持多线程并发下载、断点续传、进度显示等功能
baidu_to_minio_pipeline.py: 完整的数据流水线，将百度网盘下载和MinIO上传串联，实现一键式数据迁移
upload_to_minio.py: MinIO上传脚本，支持将本地文件上传到MinIO
minio_uploader.py: MinIO数据上传工具类，支持S3协议和MC命令行两种上传方式，针对大数据量进行了优化
performance_test.py: MinIO上传性能测试脚本，用于比较不同上传方式的性能，特别适用于32TB大数据场景
MINIO_SETUP.md: MinIO工具的详细安装配置指南，包括环境准备、配置说明、使用方法等

📁 项目文件说明

核心文件

baidu_download_example.py - 完整的下载示例
- 包含认证、文件列表、下载等完整流程
- 支持进度显示和错误处理
- 适合学习和测试使用
complete_baidu_download.py - 高级下载工具
- 支持批量下载
- 文件大小过滤
- 断点续传支持
- 递归目录扫描
test_baidupcs_api.py - API 测试脚本
- 验证 API 可用性
- 检查所有可用方法
- 调试和故障排除
minio_uploader.py - MinIO上传工具
- 支持S3协议和MC命令行两种上传方式
- 自动性能测试和方式推荐
- 大文件分片上传支持
- 实时进度监控
minio_config.py - MinIO配置管理
- 服务器连接配置
- 认证信息管理
- 上传参数设置
performance_test.py - 性能测试脚本
- 对比S3协议vs MC命令行性能
- 生成详细测试报告
- 推荐最佳上传策略

🔧 核心 API 方法

认证相关


# 创建 API 实例
api = BaiduPCSApi(bduss="", cookies=cookies)

# 获取用户信息
user_info = api.user_info()

# 获取配额信息
quota = api.quota()

文件操作


# 列出文件
files = api.list("/path")

# 获取文件元信息
meta = api.meta("/path/to/file")

# 检查文件是否存在
exists = api.exists("/path/to/file")

# 检查是否为目录
is_dir = api.is_dir("/path")

下载相关


# 获取下载链接（推荐方法）
download_links = api.download_link("/path/to/file")

# 获取文件流
file_stream = api.file_stream("/path/to/file")

其他功能


# 搜索文件
results = api.search("keyword")

# 创建目录
api.makedir("/new/directory")

# 删除文件
api.remove("/path/to/file")

# 重命名文件
api.rename("/old/path", "/new/path")

📥 下载实现方案

方案1：直链下载（推荐）


def download_with_direct_link(api, remote_path, local_path):
    # 获取下载链接
    links = api.download_link(remote_path)
    if links:
        download_url = links[0] if isinstance(links, list) else links
        
        # 使用 requests 下载
        response = requests.get(download_url, stream=True)
        with open(local_path, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                if chunk:
                    f.write(chunk)

方案2：文件流下载（备用）


def download_with_stream(api, remote_path, local_path):
    # 获取文件流
    file_stream = api.file_stream(remote_path)
    
    with open(local_path, 'wb') as f:
        for chunk in file_stream:
            if chunk:
                f.write(chunk)