数据预处理：
- _preprocess_common()：按股票分组并行特征工程、股票ID映射、标签构建；
- split_train_val_by_last_month()：按最后阶段数据切分训练/验证集，并保留序列上下文。
数据集组织：
- RankingDataset + collate_fn：处理每日股票数量不一致问题（padding + mask）。
损失函数：WeightedRankingLoss
- 组合了 listwise_loss 与 pairwise_loss；
- 对真实Top-k样本施加更高权重。
评估指标：calculate_ranking_metrics()
- 计算 pred_return_sum、max_return_sum、ratio_pred、final_score 等；
- 训练过程中以验证集 final_score 选择最优模型。

训练产物：

best_model.pth：最佳模型参数；
scaler.pkl：标准化器；
config.json：训练时配置快照；
final_score.txt：最佳分数记录；
log/：TensorBoard日志。

predict.py

推理主脚本，流程：

加载历史数据，取最新交易日；
执行与训练一致的特征工程；
加载 scaler.pkl 进行特征标准化；
用 best_model.pth 对全部可预测股票打分；
按分数降序取前5只，输出到 output.csv：
- stock_id
- weight（固定 0.2）

get_stock_data.py

数据抓取脚本（Baostock）：

获取沪深300成分股；
抓取历史日线数据并保存为训练所需格式。

3. 数据与输入输出约定

默认训练数据文件：

data/train.csv

关键列：

股票代码、日期、开盘、收盘、最高、最低、成交量、成交额、换手率、涨跌幅 等。

预测输出文件：

output目录下 result.csv（由 predict.py 生成）。

4. 运行方法（推荐使用 uv）

按你要求的推荐方式如下：

使用 uv 安装依赖

uv sync

激活虚拟环境

source .venv/bin/activate

训练模型


sh train.sh

生成预测结果


sh test.sh

5. 常见问题

TA-Lib 安装失败
本项目特征工程依赖 TA-Lib，需要先安装系统层面的 ta-lib 库，再安装Python包。


wget http://prdownloads.sourceforge.net/ta-lib/ta-lib-0.4.0-src.tar.gz && \
    tar -xzf ta-lib-0.4.0-src.tar.gz && \
    cd ta-lib && \
    ./configure --prefix=/usr && \
    make -j1 && \
    make install && \
    cd .. && \
    rm -rf ta-lib ta-lib-0.4.0-src.tar.gz

多进程相关问题
train.py 与 predict.py 均在入口使用了 spawn 模式，Linux/macOS下请保持通过脚本入口运行（不要在交互式环境里直接多进程调用主逻辑）。
GPU/CPU自动选择
代码会按 CUDA -> MPS -> CPU 顺序自动选择设备；无GPU时可直接CPU运行。

35/F,Tencent Building,Kejizhongyi Avenue,Nanshan District,Shenzhen

京ICP备11018762号-111