爬取前一天信息日均约为1万条,时间约6小时,josn大小约为300M左右。 抓取流程:时间→省份→工程建设→政府采购(每个省份依次采集) 定时(24h)、并行(最大20)、增量保存(每20个)、(ctrl+c中断爬取保存)、跳过广东/广东省、无浏览器爬取(可更改为有)
cd "dataLLM的目录"
排查
如果你是在 WSL / Ubuntu 中访问,使用下面命令进入
cd "/mnt/dataLLM的目录"
python3 -m venv .venv
source .venv/bin/activate
排查
确认 Python 是虚拟环境里的:
which python
python -c "import sys; print(sys.executable)"
正确结果应该类似:
/mnt/dataLLM的目录.venv/bin/python
python -m pip install --upgrade pip python -m pip install -r requirements.txt python -m playwright install chromium
排查
确认依赖已经安装到虚拟环境 python -m pip show openai python -m pip show playwright 如果浏览器依赖缺失,再执行: python -m playwright install-deps chromium
export DASHSCOPE_API_KEY="你的真实Key"
export LLM_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
export LLM_MODEL="qwen3-32b"
排查
然后检查:
echo $DASHSCOPE_API_KEY
echo $LLM_BASE_URL
echo $LLM_MODEL
⬇️现在脚本默认就是无头模式,看不见浏览器,适合 Ubuntu 和服务器:
python dataLLM.py --headless --daily-yesterday --output-template "{date}.json"
⬇️如果想看浏览器界面:
python dataLLM.py --headed --daily-yesterday --output-template "{date}.json"
cd "/mnt/dataLLM的目录" && \
source .venv/bin/activate && \
python -m pip install -r requirements.txt && \
python -m playwright install chromium && \
export DASHSCOPE_API_KEY="你的真实Key" && \
export LLM_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1" && \
export LLM_MODEL="qwen3-32b" && \
python dataLLM.py --schedule-yesterday-at "YYYY-MM-DD HH-MM" --output-template "{date}.json"
cd: too many arguments
原因:路径里有空格,但没有加引号。
解决:路径有空格要加引号
No module named playwright \ No module named openai
原因:当前虚拟环境里还没安装依赖,或者装到了系统环境,不在 .venv 里。
解决:
source .venv/bin/activate
python -m pip install -r requirements.txt
python -m pip show playwright
source .venv/bin/activate
python -m pip install -r requirements.txt
python -m pip show openai
如果使用看见浏览器代码运行后,如果你的 Ubuntu 没有桌面环境,可能会出现类似报错:
Failed to launch chromiumMissing X serverNo DISPLAY environment variable这种情况下,建议使用无头模式版本再部署。
指定日期范围抓取
python dataLLM.py --start-date YYYY-MM-DD --end-date YYYY-MM-DD --output test.json