logo
0
0
WeChat Login

浏览器自动化工具

这是一个使用Playwright进行浏览器自动化的工具,可以用于新闻抓取和其他网页自动化任务。

系统要求

  • Python 3.8 或更高版本
  • Linux、macOS 或 Windows 操作系统

安装

1. 初始化项目

运行初始化脚本创建虚拟环境:

chmod +x init.sh ./init.sh

2. 激活虚拟环境

source .venv/bin/activate

3. 安装依赖

运行安装脚本安装所有必要的依赖:

chmod +x setup.sh ./setup.sh

系统依赖

Playwright需要一些系统依赖来运行浏览器。如果在运行过程中遇到浏览器启动错误,请安装以下依赖:

Ubuntu/Debian:

sudo apt-get install libglib2.0-0 libnss3 libnspr4 libatk1.0-0 libatk-bridge2.0-0 libcups2 libxkbcommon0 libatspi2.0-0 libxcomposite1 libxdamage1 libxfixes3 libxrandr2 libgbm1 libpango-1.0-0 libcairo2 libasound2

或者使用Playwright的内置命令:

sudo python -m playwright install-deps

使用方法

激活虚拟环境后,运行以下命令:

python playwright_automation.py --url https://example.com --selector "article.news-item" --output results.json

参数说明

  • --url: 要抓取的网页URL
  • --selector: 用于定位内容的CSS选择器
  • --output: 输出结果的JSON文件路径(可选)
  • --headless: 是否以无头模式运行浏览器(默认为true)
  • --timeout: 页面加载超时时间,单位为毫秒(默认为30000)

开发

如果要修改或扩展此工具,请参考以下文件:

  • playwright_automation.py: 主要的自动化脚本
  • browser_automation.py: 浏览器自动化的核心功能

许可证

MIT

About

No description, topics, or website provided.
Language
Python71.3%
Shell13%
Markdown12.5%
TOML3.2%