post-training框架研发高级工程师 (J250314017)
Didi
Beijing, China
Posted on Mar 16, 2025
职位描述
1.参与滴滴内部 post-training 框架研发,聚焦 LLM + RL 方向,设计框架架构与技术路线,提升其扩展性、稳定性与效率。
2.优化框架性能,如训练速度、显存占用等,降低训练成本,为 LLM + RL 训练提供有力技术支撑。
3.协同业务团队,将 LLM 能力在业务场景落地,根据业务需求定制训练方案并评估验证模型。
4.关注行业前沿,引入有价值的技术到公司框架和模型中,探索新算法与方法,推动技术创新。
任职要求
1. 计算机科学、数学、统计学、自动化等相关专业本科及以上学历。
2. 熟悉Post-Training流程,深入了解RL领域,包括但不限于RM、PPO、DPO、GRPO等算法。
3.具备大模型训练框架开发能力,包括pytorch、megatron等。
4.具备强化学习框架开发能力,包括openRLHF、verl等。
5.具备一线的C++/Python工程能力,精通数据结构和常用算法,掌握各种编译、调试、性能分析工具,,熟悉并行编程(CUDA/Triton等)优先。