职位描述
1、负责强化学习(Reinforcement Learning, RL)算法的研发与优化,探索其在智能决策、机器人控制、游戏AI、广告推荐等场景的应用;
2、结合业务需求,设计并实现高效、可扩展的强化学习算法,包括但不限于DQN、PPO、SAC、Multi-Agent RL、Meta RL等;
3、参与大规模分布式强化学习系统的开发,解决模型训练、部署中的性能与稳定性问题;
4、与产品、数据团队紧密协作,推动算法在真实场景中的落地与迭代;
截止日期:2026年03月18日
招聘人数:2人