【REDstar】大模型 RL Training Infra 工程师-上海招聘网

联系方式

联系人：行吟信息科技（上海）有限公司

联系电话：152****5633

打电话联系前先投递一份简历，面试成功率提高60%！

(联系我时，请说是在上海易职邦上看到的)

职位描述

工作职责: 我们是小红书大模型基建部，负责公司级 AI 大模型全链路基础设施建设。我们不是单点工具团队，而是完整闭环「算力 - 框架 - 平台」以解决产业级大模型生产效率问题：让模型训得更快、推得更稳、成本更低、业务接入更简单。我们构建了 Relax RL 训练框架、RedSlim 模型压缩工具、rLLM 推理部署框架、DirectLLM MaaS 系统和 QuickSilver 大模型生产平台，持续支撑社区、大商业、国际化、审核、企业智能等小红书核心业务的大模型落地。在这里，你会面对千卡级后训练、高并发推理、EPD 分离与 KV Cache 复用、低比特模型量化、国产异构芯片性能优化、万卡级 GPU 调度等真实业务的大规模 AI Infra 挑战。加入团队后，你可以专注单一Infra方向深耕，也可以参与跨方向系统设计，成长为真正理解大模型全链路的 AI Infra 工程师。团队持续参与开源与行业技术交流，Relax RL框架已对外开源，期待有志于构建生产级 Infra 能力并持续提升个人行业影响力的优秀同学加入。工作职责： 1、RL 后训练框架研发：负责 Relax RL 后训练框架的核心研发，支持 SFT、DPO、PPO、GRPO、RLVR 等主流后训练范式，持续追踪并落地前沿算法。 2、RL Pipeline 优化：设计高效的 RL 训练 Pipeline，优化 Rollout、Reward Model、Actor、Reference Model 等模块间的资源调度与动态协同，提升端到端训练吞吐。 3、分布式训练优化：基于 Megatron、DeepSpeed、veRL 等框架，针对 RL 场景调优 TP / PP / DP / ZeRO / Sequence Parallel 等并行策略，在性能、显存与稳定性之间取得最优平衡。 4、千卡训练稳定性建设：攻克大规模训练中的显存管理、跨节点通信、弹性容错、任务调度与数据流转等核心挑战，提升训练成功率与集群资源利用率。 5、异构芯片训练适配：负责训练框架在国产异构计算芯片（升腾 / PPU 等）上的适配与优化，完成模型迁移、算子支持、框架适配、Profiling 与 Kernel 调优，推动国产算力在训练场景的规模化使用。 6、后训练工具链建设：构建端到端后训练工具链，打通训练框架与 MLOps 平台，提供训练可视化、自动超参搜索、故障诊断等生产级能力，降低算法团队使用门槛。 7、业务协同与算法探索：与算法团队紧密协作，支撑 LLM / MLLM / Agent 等业务方向在 SFT 与 RL 领域的算法探索与工程落地。任职资格: 1、精通 PyTorch，具备训练框架源码级阅读与修改能力，有实际性能优化经验。 2、熟练掌握 Megatron、DeepSpeed、veRL、OpenRLHF、TRL、Llama-Factory 中至少一种框架的使用与二次开发。 3、理解分布式训练核心技术，包括 TP、PP、DP、ZeRO、序列并行、梯度累积、混合精度训练等。 4、熟悉 RLHF、DPO、PPO、GRPO 等大模型后训练流程，有实际训练调优或框架开发经验优先。 5、具备模型训练性能分析经验，能借助 Nsight Systems / Compute、nvprof、PyTorch Profiler 等工具定位训练性能瓶颈。 6、具备良好的工程实现能力、沟通协作能力和问题闭环意识。加分项： 1、有千卡级大模型训练或后训练实战经验，成功解决过跨节点通信、容错训练、显存优化、训练稳定性等生产级问题。 2、熟悉 NCCL / RDMA / InfiniBand / RoCE 等高性能网络通信机制，能独立定位跨机通信瓶颈。 3、有 CUDA Kernel 开发经验，如 Fused Operator、FlashAttention、通信计算重叠（Overlap）等性能优化。 4、有国产异构芯片（升腾 Ascend、平头哥 PPU）训练适配或 Kernel 开发经验，熟悉 CANN / ROCm 等基础软件栈；有大模型在国产芯片上规模化落地实战经验者优先。 5、深入理解 GPU / NPU 硬件架构（Tensor Core、内存层级、计算单元、通信拓扑），能结合硬件特性进行差异化训练优化方案设计。 6、参与过 Megatron、DeepSpeed、veRL、OpenRLHF、TRL 等开源项目的核心模块开发或贡献。 7、在大模型训练、分布式系统或 MLSys 方向有高水平学术论文发表。