多策略网页抓取与内容理解 Agent — 级联回退 + 新闻检测 + LLM 实体抽取
本仓库为 CNB Agent Skill,提供多策略网页内容抓取能力。支持 HTTP 直连 → Puppeteer 渲染的级联回退机制,自动检测新闻结构、去噪提取、结构化元数据生成和 LLM 实体抽取。
| 能力 | 说明 |
|---|---|
| 多策略提取 | HTTP 抓取 → JS 渲染 → 级联回退,自动选择最优策略 |
| 新闻检测 | 自动识别新闻文章结构(标题/作者/日期/正文) |
| 去噪处理 | 移除导航、广告、页脚、侧边栏等无关内容 |
| 结构化元数据 | 提取 OpenGraph、JSON-LD、HTML meta 信息 |
| LLM 实体抽取 | 使用 AI 进行深度信息提取与摘要生成 |
| 批量抓取 | 支持多 URL 并行抓取,结果统一格式化 |
作为 CNB Agent Skill 安装后,AI Agent 可自动进行网页内容抓取:
帮我抓取以下页面的内容并提取关键信息:https://example.com/article
web-scraper/ ├── SKILL.md # Skill 定义文件 ├── CHANGELOG.md # 变更日志 ├── _meta.json # Skill 元数据 └── claw.json # Agent 配置
请求输入 ↓ HTTP 直连抓取 ↓ (失败/空内容) Puppeteer JS 渲染 ↓ 内容去噪 + 结构提取 ↓ 元数据聚合(OG / JSON-LD / meta) ↓ LLM 实体抽取(可选) ↓ 结构化输出(Markdown / JSON)
| 依赖 | 说明 |
|---|---|
| Puppeteer | JS 渲染回退策略 |
| LLM API | 实体抽取(可选) |
robots.txt 协议Q: 支持 JavaScript 渲染页面吗? A: 支持。HTTP 抓取失败或检测到 SPA 特征时,自动回退到 Puppeteer 渲染。
Q: 抓取结果格式是什么? A: 默认输出 Markdown 格式,也可配置为 JSON 结构化输出。
Q: 如何处理反爬虫? A: 内置 User-Agent 轮换和请求间隔控制,复杂反爬场景建议配合代理使用。