logo
0
0
WeChat Login

Web 爬虫技能

多策略级联抽取,新闻检测与 LLM 实体提取

概述

高级 Web 爬虫与内容理解 Agent,采用多策略级联方法(轻量优先),支持新闻检测、样板移除、结构化元数据和 LLM 实体提取。

功能特性

  • 🕷️ 多策略级联抓取(HTTP → HTML → Playwright → LLM)
  • 📰 新闻内容检测
  • 🧹 样板内容移除
  • 🏗️ 结构化元数据提取
  • 🧠 LLM 实体识别(可选,需 API Key)
  • 📄 输出 JSON/CSV 格式

触发场景

  • 网页内容抓取
  • 数据提取与清洗
  • 批量页面爬取
  • 新闻聚合

版本

v0.1.1

仓库

web-scraper

About

多策略网页抓取与内容提取 Skill

skillsscraping
120.00 KiB
Skills
0 forks0 stars1 branches0 TagREADME