这个仓库包含一组脚本,用于抓取微信开发者文档并转换为清洗后的 Markdown。
python3uvwgetpandoc安装 pandoc(如果尚未安装):
apt-get update && DEBIAN_FRONTEND=noninteractive apt-get install -y pandoc
文件:extract_doc_content.py
用途:抓取页面并按 XPath 提取节点,输出 HTML。
示例:
uv run extract_doc_content.py \
--url "https://developers.weixin.qq.com/doc/service/api/" \
--xpath '//*[@id="docContent"]' \
--output docContent.html \
--save-source source.html
文件:convert_selected_to_markdown.py
用途:从本地 HTML 中按 XPath 选区,调用 pandoc 转 Markdown,并做清洗:
div)a 转 Markdown 链接data-v-* 等属性示例:
uv run convert_selected_to_markdown.py \
--input source.html \
--xpath '//*[@id="docContent"]' \
--selected-html selected.html \
--output-md docContent.md
文件:wechat_docs_crawl_convert_scheduler.py
用途:
https://developers.weixin.qq.com/doc/ 开始用 wget --spider 发现 URL(robots=off)#docContent.md 路径小规模示例:
uv run wechat_docs_crawl_convert_scheduler.py \
--start-url "https://developers.weixin.qq.com/doc/" \
--depth 1 \
--max-urls 20 \
--workdir crawl_output
较大规模示例:
uv run wechat_docs_crawl_convert_scheduler.py \
--start-url "https://developers.weixin.qq.com/doc/" \
--depth 2 \
--max-urls 500 \
--workdir crawl_output_full
以 --workdir crawl_output 为例,主要包含:
crawl_output/spider.log:蜘蛛日志crawl_output/html/:下载的原始 HTMLcrawl_output/html_clean/:提取清洗后的 HTMLcrawl_output/md/:最终 Markdowncommand -v pandoc 可用。#docContent,调度脚本会跳过这类页面。.md。