MarkItDown 是一个 Python 工具,可以把各种文件格式转换为 Markdown,专为大语言模型和文本分析场景优化。它在输出干净、Token 高效的 Markdown 的同时,会保留文档结构(标题、列表、表格、超链接)。
当用户有以下需求时,使用本 Skill:
- 把文档转换成 Markdown 格式
- 从 PDF、Word、PowerPoint、Excel 文件中提取文本
- 对图片做 OCR 提取文字 (当模型不支持多模态时,OCR 提取文本)
- 把 HTML、EPUB 或网页内容转成 Markdown