欢迎访问上海招聘网!本站为上海找工作求职者提供上海人才招聘、上海人才市场、上海人才网等岗位信息!


职位月薪: 面议
工作职责: 我们是小红书大模型基建部,负责公司级 AI 大模型全链路基础设施建设。我们不是单点工具团队,而是完整闭环「算力 - 框架 - 平台」以解决产业级大模型生产效率问题:让模型训得更快、推得更稳、成本更低、业务接入更简单。我们构建了 Relax RL 训练框架、RedSlim 模型压缩工具、rLLM 推理部署框架、DirectLLM MaaS 系统和 QuickSilver 大模型生产平台,持续支撑社区、大商业、国际化、审核、企业智能等小红书核心业务的大模型落地。在这里,你会面对千卡级后训练、高并发推理、EPD 分离与 KV Cache 复用、低比特模型量化、国产异构芯片性能优化、万卡级 GPU 调度等真实业务的大规模 AI Infra 挑战。加入团队后,你可以专注单一Infra方向深耕,也可以参与跨方向系统设计,成长为真正理解大模型全链路的 AI Infra 工程师。团队持续参与开源与行业技术交流,Relax RL框架已对外开源,期待有志于构建生产级 Infra 能力并持续提升个人行业影响力的优秀同学加入。 工作职责: 1、RL 后训练框架研发: 负责 Relax RL 后训练框架的核心研发,支持 SFT、DPO、PPO、GRPO、RLVR 等主流后训练范式,持续追踪并落地前沿算法。 2、RL Pipeline 优化: 设计高效的 RL 训练 Pipeline,优化 Rollout、Reward Model、Actor、Reference Model 等模块间的资源调度与动态协同,提升端到端训练吞吐。 3、分布式训练优化: 基于 Megatron、DeepSpeed、veRL 等框架,针对 RL 场景调优 TP / PP / DP / ZeRO / Sequence Parallel 等并行策略,在性能、显存与稳定性之间取得最优平衡。 4、千卡训练稳定性建设: 攻克大规模训练中的显存管理、跨节点通信、弹性容错、任务调度与数据流转等核心挑战,提升训练成功率与集群资源利用率。 5、异构芯片训练适配: 负责训练框架在国产异构计算芯片(升腾 / PPU 等)上的适配与优化,完成模型迁移、算子支持、框架适配、Profiling 与 Kernel 调优,推动国产算力在训练场景的规模化使用。 6、后训练工具链建设: 构建端到端后训练工具链,打通训练框架与 MLOps 平台,提供训练可视化、自动超参搜索、故障诊断等生产级能力,降低算法团队使用门槛。 7、业务协同与算法探索: 与算法团队紧密协作,支撑 LLM / MLLM / Agent 等业务方向在 SFT 与 RL 领域的算法探索与工程落地。 任职资格: 1、精通 PyTorch,具备训练框架源码级阅读与修改能力,有实际性能优化经验。 2、熟练掌握 Megatron、DeepSpeed、veRL、OpenRLHF、TRL、Llama-Factory 中至少一种框架的使用与二次开发。 3、理解分布式训练核心技术,包括 TP、PP、DP、ZeRO、序列并行、梯度累积、混合精度训练等。 4、熟悉 RLHF、DPO、PPO、GRPO 等大模型后训练流程,有实际训练调优或框架开发经验优先。 5、具备模型训练性能分析经验,能借助 Nsight Systems / Compute、nvprof、PyTorch Profiler 等工具定位训练性能瓶颈。 6、具备良好的工程实现能力、沟通协作能力和问题闭环意识。 加分项: 1、有千卡级大模型训练或后训练实战经验,成功解决过跨节点通信、容错训练、显存优化、训练稳定性等生产级问题。 2、熟悉 NCCL / RDMA / InfiniBand / RoCE 等高性能网络通信机制,能独立定位跨机通信瓶颈。 3、有 CUDA Kernel 开发经验,如 Fused Operator、FlashAttention、通信计算重叠(Overlap)等性能优化。 4、有国产异构芯片(升腾 Ascend、平头哥 PPU)训练适配或 Kernel 开发经验,熟悉 CANN / ROCm 等基础软件栈;有大模型在国产芯片上规模化落地实战经验者优先。 5、深入理解 GPU / NPU 硬件架构(Tensor Core、内存层级、计算单元、通信拓扑),能结合硬件特性进行差异化训练优化方案设计。 6、参与过 Megatron、DeepSpeed、veRL、OpenRLHF、TRL 等开源项目的核心模块开发或贡献。 7、在大模型训练、分布式系统或 MLSys 方向有高水平学术论文发表。
微信扫一扫,及时了解投递状态
您目前还没有登录:立即登录工作职责: 我们是小红书大模型基建部,负责公司级 AI 大模型全链路基础设施建设。我们不是单点工具团队,而是完整闭环「算力 - 框架 - 平台」以解决产业级大模型生产效率问题:让模型训得更快、推得更稳、成本更低、业务接入更简单。我们构建了 Relax RL 训练框架、RedSlim 模型压缩工具、rLLM 推理部署框架、DirectLLM MaaS 系统和 QuickSilver 大模型生产平台,持续支撑社区、大商业、国际化、审核、企业智能等小红书核心业务的大模型落地。在这里,你会面对千卡级后训练、高并发推理、EPD 分离与 KV Cache 复用、低比特模型量化、国产异构芯片性能优化、万卡级 GPU 调度等真实业务的大规模 AI Infra 挑战。加入团队后,你可以专注单一Infra方向深耕,也可以参与跨方向系统设计,成长为真正理解大模型全链路的 AI Infra 工程师。团队持续参与开源与行业技术交流,Relax RL框架已对外开源,期待有志于构建生产级 Infra 能力并持续提升个人行业影响力的优秀同学加入。 工作职责: 1、RL 后训练框架研发: 负责 Relax RL 后训练框架的核心研发,支持 SFT、DPO、PPO、GRPO、RLVR 等主流后训练范式,持续追踪并落地前沿算法。 2、RL Pipeline 优化: 设计高效的 RL 训练 Pipeline,优化 Rollout、Reward Model、Actor、Reference Model 等模块间的资源调度与动态协同,提升端到端训练吞吐。 3、分布式训练优化: 基于 Megatron、DeepSpeed、veRL 等框架,针对 RL 场景调优 TP / PP / DP / ZeRO / Sequence Parallel 等并行策略,在性能、显存与稳定性之间取得最优平衡。 4、千卡训练稳定性建设: 攻克大规模训练中的显存管理、跨节点通信、弹性容错、任务调度与数据流转等核心挑战,提升训练成功率与集群资源利用率。 5、异构芯片训练适配: 负责训练框架在国产异构计算芯片(升腾 / PPU 等)上的适配与优化,完成模型迁移、算子支持、框架适配、Profiling 与 Kernel 调优,推动国产算力在训练场景的规模化使用。 6、后训练工具链建设: 构建端到端后训练工具链,打通训练框架与 MLOps 平台,提供训练可视化、自动超参搜索、故障诊断等生产级能力,降低算法团队使用门槛。 7、业务协同与算法探索: 与算法团队紧密协作,支撑 LLM / MLLM / Agent 等业务方向在 SFT 与 RL 领域的算法探索与工程落地。 任职资格: 1、精通 PyTorch,具备训练框架源码级阅读与修改能力,有实际性能优化经验。 2、熟练掌握 Megatron、DeepSpeed、veRL、OpenRLHF、TRL、Llama-Factory 中至少一种框架的使用与二次开发。 3、理解分布式训练核心技术,包括 TP、PP、DP、ZeRO、序列并行、梯度累积、混合精度训练等。 4、熟悉 RLHF、DPO、PPO、GRPO 等大模型后训练流程,有实际训练调优或框架开发经验优先。 5、具备模型训练性能分析经验,能借助 Nsight Systems / Compute、nvprof、PyTorch Profiler 等工具定位训练性能瓶颈。 6、具备良好的工程实现能力、沟通协作能力和问题闭环意识。 加分项: 1、有千卡级大模型训练或后训练实战经验,成功解决过跨节点通信、容错训练、显存优化、训练稳定性等生产级问题。 2、熟悉 NCCL / RDMA / InfiniBand / RoCE 等高性能网络通信机制,能独立定位跨机通信瓶颈。 3、有 CUDA Kernel 开发经验,如 Fused Operator、FlashAttention、通信计算重叠(Overlap)等性能优化。 4、有国产异构芯片(升腾 Ascend、平头哥 PPU)训练适配或 Kernel 开发经验,熟悉 CANN / ROCm 等基础软件栈;有大模型在国产芯片上规模化落地实战经验者优先。 5、深入理解 GPU / NPU 硬件架构(Tensor Core、内存层级、计算单元、通信拓扑),能结合硬件特性进行差异化训练优化方案设计。 6、参与过 Megatron、DeepSpeed、veRL、OpenRLHF、TRL 等开源项目的核心模块开发或贡献。 7、在大模型训练、分布式系统或 MLSys 方向有高水平学术论文发表。
企业尚未更新
上海市
扫描二维码及时订阅职位
最新职位信息第一时间知晓
上海兼职招聘
360行任你挑选
分秒必争直达HR
谁看我简历早知道
请使用微信【扫一扫】
关注「上海易职邦招聘」公众号完成登录
客服电话:400-765-0056
竭诚为您服务
服务时间08:00-24:00
微信小程序
面试通知
收藏
简历
足迹
微信求职
关注公众号
掌握最新求职动态
小程序
进入小程序
随时随地找工作