ch_server模型更新为PP-OCRv5_rec_server,ch_lite模型更新为PP-OCRv5_rec_mobile(需更新模型)
PP-OCRv4_server_rec_doc。lang='ch_server'(python api)或--lang ch_server(命令行)自行选择相应的模型:
ch :PP-OCRv4_rec_server_doc(默认)(中英日繁混合/1.5w字典)ch_server :PP-OCRv5_rec_server(中英日繁混合+手写场景/1.8w字典)ch_lite :PP-OCRv5_rec_mobile(中英日繁混合+手写场景/1.8w字典)ch_server_v4 :PP-OCRv4_rec_server(中英混合/6k字典)ch_lite_v4 :PP-OCRv4_rec_mobile(中英混合/6k字典)huggingface和modelscope的demo已更新为支持手写识别和ppocrv5模型的版本,可自行在线体验magic-pdf.json文件中的latex-delimiter-config项实现。ocr默认模型(ch)更新为PP-OCRv4_server_rec_doc(需更新模型)
PP-OCRv4_server_rec_doc是在PP-OCRv4_server_rec的基础上,在更多中文文档数据和PP-OCR训练数据的混合数据训练而成,增加了部分繁体字、日文、特殊字符的识别能力,可支持识别的字符为1.5万+,除文档相关的文字识别能力提升外,也同时提升了通用文字的识别能力。PP-OCRv4_server_rec_doc模型在中英日繁单种语言或多种语言混合场景均有明显精度提升,且速度与PP-OCRv4_server_rec相当,适合绝大部分场景使用。PP-OCRv4_server_rec_doc在小部分纯英文场景可能会发生单词粘连问题,PP-OCRv4_server_rec则在此场景下表现更好,因此我们保留了PP-OCRv4_server_rec模型,用户可通过增加参数lang='ch_server'(python api)或--lang ch_server(命令行)调用。cpu模式下ocr和表格解析速度大幅下降的问题layoutlmv3的使用,解决了由detectron2导致的兼容问题unimernet(2503),解决多行公式中换行丢失的问题paddleocr2torch,完全替代paddle框架以及paddleocr在项目中的使用,解决了paddle和torch的冲突问题,和由于paddle框架导致的线程不安全问题MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。
https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
如果遇到任何安装问题,请先查询 FAQ
如果遇到解析效果不及预期,参考 Known Issues
有3种不同方式可以体验MinerU的效果:
WARNING
安装前必看——软硬件环境支持说明
为了确保项目的稳定性和可靠性,我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时,能够获得最佳的性能表现和最少的兼容性问题。
通过集中资源和精力于主线环境,我们团队能够更高效地解决潜在的BUG,及时开发新功能。
在非主线环境中,由于硬件、软件配置的多样性,以及第三方依赖项的兼容性问题,我们无法100%保证项目的完全可用性。因此,对于希望在非推荐环境中使用本项目的用户,我们建议先仔细阅读文档以及FAQ,大多数问题已经在FAQ中有对应的解决方案,除此之外我们鼓励社区反馈问题,以便我们能够逐步扩大支持范围。
| 操作系统 | |||||
| Linux after 2019 | Windows 10 / 11 | macOS 11+ | |||
| CPU | x86_64 / arm64 | x86_64(暂不支持ARM Windows) | x86_64 / arm64 | ||
| 内存 | 大于等于16GB,推荐32G以上 | ||||
| 存储空间 | 大于等于20GB,推荐使用SSD以获得最佳性能 | ||||
| python版本 | 3.10~3.13 | ||||
| Nvidia Driver 版本 | latest(专有驱动) | latest | None | ||
| CUDA环境 | Refer to the PyTorch official website | None | |||
| CANN环境(NPU支持) | 8.0+(Ascend 910b) | None | None | ||
| GPU/MPS 硬件支持列表 | 显存6G以上 |
Volta(2017)及之后生产的全部带Tensor Core的GPU 6G显存及以上 | Apple silicon | ||
同步dev分支更新:
NOTE
最新版本国内镜像源同步可能会有延迟,请耐心等待
conda create -n mineru 'python=3.12' -y
conda activate mineru
pip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simple
详细参考 如何下载模型文件
完成2. 下载模型权重文件步骤后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。 您可在【用户目录】下找到magic-pdf.json文件。
TIP
windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"
您可修改该文件中的部分配置实现功能的开关,如表格识别功能:
NOTE
如json内没有如下项目,请手动添加需要的项目,并删除注释内容(标准json不支持注释)
{
// other config
"layout-config": {
"model": "doclayout_yolo"
},
"formula-config": {
"mfd_model": "yolo_v8_mfd",
"mfr_model": "unimernet_small",
"enable": true // 公式识别功能默认是开启的,如果需要关闭请修改此处的值为"false"
},
"table-config": {
"model": "rapid_table",
"sub_model": "slanet_plus",
"enable": true, // 表格识别功能默认是开启的,如果需要关闭请修改此处的值为"false"
"max_time": 400
}
}
如果您的设备支持CUDA,且满足主线环境中的显卡要求,则可以使用GPU加速,请根据自己的系统选择适合的教程:
IMPORTANT
Docker 需设备gpu显存大于等于6GB,默认开启所有加速功能
运行本docker前可以通过以下命令检测自己的设备是否支持在docker上使用CUDA加速
docker run --rm --gpus=all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile
docker build -t mineru:latest .
docker run -it --name mineru --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"
magic-pdf --help
如果您的设备存在NPU加速硬件,则可以通过以下教程使用NPU加速:
如果您的设备使用Apple silicon 芯片,您可以开启mps加速:
您可以通过在 magic-pdf.json 配置文件中将 device-mode 参数设置为 mps 来启用 MPS 加速。
{
// other config
"device-mode": "mps"
}
TIP
更多有关输出文件的信息,请参考输出文件说明
衍生项目包含项目开发者和社群开发者们基于MinerU的二次开发项目, 例如基于Gradio的应用界面、基于llama的RAG、官网同款web demo、轻量级的多卡负载均衡c/s端等, 这些项目可能会提供更多的功能和更好的用户体验。 具体部署方式请参考 衍生项目readme
TODO
本项目目前采用PyMuPDF以实现高级功能,但因其遵循AGPL协议,可能对某些使用场景构成限制。未来版本迭代中,我们计划探索并替换为许可条款更为宽松的PDF处理库,以提升用户友好度及灵活性。
@misc{wang2024mineruopensourcesolutionprecise, title={MinerU: An Open-Source Solution for Precise Document Content Extraction}, author={Bin Wang and Chao Xu and Xiaomeng Zhao and Linke Ouyang and Fan Wu and Zhiyuan Zhao and Rui Xu and Kaiwen Liu and Yuan Qu and Fukai Shang and Bo Zhang and Liqun Wei and Zhihao Sui and Wei Li and Botian Shi and Yu Qiao and Dahua Lin and Conghui He}, year={2024}, eprint={2409.18839}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2409.18839}, } @article{he2024opendatalab, title={Opendatalab: Empowering general artificial intelligence with open datasets}, author={He, Conghui and Li, Wei and Jin, Zhenjiang and Xu, Chao and Wang, Bin and Lin, Dahua}, journal={arXiv preprint arXiv:2407.13773}, year={2024} }
Magic-Doc Fast speed ppt/pptx/doc/docx/pdf extraction tool
Magic-HTML Mixed web page extraction tool