京东TimeHF大模型实战:如何用RLHF提升销量预测准确率10%+(附数据集构建技巧)
在零售行业,销量预测的准确性直接关系到库存管理、供应链优化和资金周转效率。传统时序预测模型如ARIMA、Prophet在处理复杂业务场景时往往捉襟见肘,而深度学习模型又面临零样本泛化能力不足的困境。京东供应链算法团队最新研发的TimeHF时序大模型,通过引入人类反馈强化学习(RLHF)技术,在2万种商品上实现了预测准确率10%以上的提升,为行业树立了新标杆。
1. 时序大模型的数据工程革命
构建高质量数据集是训练大模型的基础。京东团队通过独创的"真实+合成+公开"三源数据融合策略,打造了包含15亿样本的行业最大时序数据集。这个规模是现有公开数据集的50倍以上,为模型捕捉复杂时序规律提供了充足"燃料"。
1.1 多源数据采集与配比
数据来源的多样性直接影响模型泛化能力。团队采用金字塔式数据采集策略:
- 核心层(76%):京东平台3年跨品类销售数据,包含食品、服装等高频波动商品
- 补充层(20%):基于趋势项和季节项生成的合成数据,增强模型处理极端情况能力
- 基准层(4%):Monash等公开数据集,确保模型掌握基础时序模式
关键技巧:通过时序标签系统对每个样本标注长度、零销量占比等20+特征,为后续质量过滤建立量化标准
1.2 数据清洗的工业化流程
原始数据需经过严格的质量管控流水线:
- 异常检测:剔除连续30天零销量的"僵尸商品"数据
- 去重聚类:基于DTW算法识别相似时序曲线,保留最具代表性样本
- 动态配比:训练过程中自动调整三类数据比例,防止模型偏向某类特征

&spm=1001.2101.3001.5002&articleId=154887126&d=1&t=3&u=bf5def27de834fb9b3517034561d511d)
125

被折叠的 条评论
为什么被折叠?



