logo
0
0
WeChat Login

万息全国标讯数据采集dataLLM 操作手册

爬取前一天信息日均约为1万条,时间约6小时,josn大小约为300M左右。 抓取流程:时间→省份→工程建设→政府采购(每个省份依次采集) 定时(24h)、并行(最大20)、增量保存(每20个)、(ctrl+c中断爬取保存)、跳过广东/广东省、无浏览器爬取(可更改为有)

1. 进入目录

cd "dataLLM的目录"

排查

如果你是在 WSL / Ubuntu 中访问,使用下面命令进入 cd "/mnt/dataLLM的目录"

2. 创建并激活虚拟环境

python3 -m venv .venv source .venv/bin/activate

排查

确认 Python 是虚拟环境里的: which python python -c "import sys; print(sys.executable)" 正确结果应该类似: /mnt/dataLLM的目录.venv/bin/python

3. 安装依赖

python -m pip install --upgrade pip python -m pip install -r requirements.txt python -m playwright install chromium

排查

确认依赖已经安装到虚拟环境 python -m pip show openai python -m pip show playwright 如果浏览器依赖缺失,再执行: python -m playwright install-deps chromium

4. 配置大模型环境变量

export DASHSCOPE_API_KEY="你的真实Key" export LLM_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1" export LLM_MODEL="qwen3-32b"

排查

然后检查: echo $DASHSCOPE_API_KEY echo $LLM_BASE_URL echo $LLM_MODEL

5. 运行测试(默认)

⬇️现在脚本默认就是无头模式,看不见浏览器,适合 Ubuntu 和服务器:

python dataLLM.py --headless --daily-yesterday --output-template "{date}.json"

⬇️如果想看浏览器界面:

python dataLLM.py --headed --daily-yesterday --output-template "{date}.json"

6. 一条命令快速测试

cd "/mnt/dataLLM的目录" && \ source .venv/bin/activate && \ python -m pip install -r requirements.txt && \ python -m playwright install chromium && \ export DASHSCOPE_API_KEY="你的真实Key" && \ export LLM_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1" && \ export LLM_MODEL="qwen3-32b" && \ python dataLLM.py --schedule-yesterday-at "YYYY-MM-DD HH-MM" --output-template "{date}.json"

7. 其它

7.1 常见问题

cd: too many arguments

原因:路径里有空格,但没有加引号。

解决:路径有空格要加引号

No module named playwright \ No module named openai

原因:当前虚拟环境里还没安装依赖,或者装到了系统环境,不在 .venv 里。

解决:

source .venv/bin/activate python -m pip install -r requirements.txt python -m pip show playwright
source .venv/bin/activate python -m pip install -r requirements.txt python -m pip show openai

7.2 浏览器启动失败 / 缺少图形界面

如果使用看见浏览器代码运行后,如果你的 Ubuntu 没有桌面环境,可能会出现类似报错:

  • Failed to launch chromium
  • Missing X server
  • No DISPLAY environment variable

这种情况下,建议使用无头模式版本再部署。

7.3 其它运行命令

指定日期范围抓取

python dataLLM.py --start-date YYYY-MM-DD --end-date YYYY-MM-DD --output test.json

About

万息全国标讯采集数据

Language
Python100%