多策略级联抽取,新闻检测与 LLM 实体提取
高级 Web 爬虫与内容理解 Agent,采用多策略级联方法(轻量优先),支持新闻检测、样板移除、结构化元数据和 LLM 实体提取。
- 🕷️ 多策略级联抓取(HTTP → HTML → Playwright → LLM)
- 📰 新闻内容检测
- 🧹 样板内容移除
- 🏗️ 结构化元数据提取
- 🧠 LLM 实体识别(可选,需 API Key)
- 📄 输出 JSON/CSV 格式
- 网页内容抓取
- 数据提取与清洗
- 批量页面爬取
- 新闻聚合
v0.1.1
web-scraper