logo
0
0
WeChat Login
hejianhong<hejianhong@cnb.cool>
docs: add quick-start section, standardize section naming

Web Scraper Skill

CNB Skill

多策略网页抓取与内容理解 Agent — 级联回退 + 新闻检测 + LLM 实体抽取

概述

本仓库为 CNB Agent Skill,提供多策略网页内容抓取能力。支持 HTTP 直连 → Puppeteer 渲染的级联回退机制,自动检测新闻结构、去噪提取、结构化元数据生成和 LLM 实体抽取。

核心能力

能力说明
多策略提取HTTP 抓取 → JS 渲染 → 级联回退,自动选择最优策略
新闻检测自动识别新闻文章结构(标题/作者/日期/正文)
去噪处理移除导航、广告、页脚、侧边栏等无关内容
结构化元数据提取 OpenGraph、JSON-LD、HTML meta 信息
LLM 实体抽取使用 AI 进行深度信息提取与摘要生成
批量抓取支持多 URL 并行抓取,结果统一格式化

快速开始

作为 CNB Agent Skill 安装后,AI Agent 可自动进行网页内容抓取:

帮我抓取以下页面的内容并提取关键信息:https://example.com/article

文件结构

web-scraper/ ├── SKILL.md # Skill 定义文件 ├── CHANGELOG.md # 变更日志 ├── _meta.json # Skill 元数据 └── claw.json # Agent 配置

技术架构

请求输入 ↓ HTTP 直连抓取 ↓ (失败/空内容) Puppeteer JS 渲染 ↓ 内容去噪 + 结构提取 ↓ 元数据聚合(OG / JSON-LD / meta) ↓ LLM 实体抽取(可选) ↓ 结构化输出(Markdown / JSON)

支持的页面类型

  • 静态 HTML 页面
  • SPA 单页应用(React/Vue/Angular)
  • 新闻网站与博客
  • 文档站点(Markdown 渲染页面)
  • 电商商品页(结构化数据提取)

前置条件

依赖说明
PuppeteerJS 渲染回退策略
LLM API实体抽取(可选)

注意事项

  • 遵守 robots.txt 协议
  • 建议对目标网站设置合理请求间隔(≥1s)
  • 大批量抓取建议使用代理 IP 轮换

FAQ

Q: 支持 JavaScript 渲染页面吗? A: 支持。HTTP 抓取失败或检测到 SPA 特征时,自动回退到 Puppeteer 渲染。

Q: 抓取结果格式是什么? A: 默认输出 Markdown 格式,也可配置为 JSON 结构化输出。

Q: 如何处理反爬虫? A: 内置 User-Agent 轮换和请求间隔控制,复杂反爬场景建议配合代理使用。

相关仓库