欢迎访问上海招聘网!本站为上海找工作求职者提供上海人才招聘、上海人才市场、上海人才网等岗位信息!

网站地图
上海招聘网

上海站[切换城市]
  • 职位
    • 公司
    • 职位
  • 上海招聘网 www.shrszp.net 提示:

    确认
    上海招聘网 上海招聘网 > 招聘列表 > 招聘详情 >

    【REDstar】大模型 RL Training Infra 工程师

    【REDstar】大模型 RL Training Infra 工程师

    职位月薪:面议

    【REDstar】大模型 RL Training Infra 工程师

    职位月薪: 面议

    • 岗位类别:
    • 招聘类型: 校园
    • 工作经验: 应届生
    • 工作地点:
    • 学历要求: 不限学历
    • 招聘人数: 1人
      福利待遇:
    • 五险一金
    • 优质平台
    • 法定节假日休息
    • 年终奖

    收藏 收藏 小程序 小程序 岗位分享 微信分享

    聊一聊 和TA聊一聊  投递简历 投个简历

    联系方式

    联系人:行吟信息科技(上海)有限公司

    联系电话:152****5633

    点击查看
    打电话联系前先投递一份简历,面试成功率提高60%!

    (联系我时,请说是在上海易职邦上看到的)

    职位描述

    工作职责: 我们是小红书大模型基建部,负责公司级 AI 大模型全链路基础设施建设。我们不是单点工具团队,而是完整闭环「算力 - 框架 - 平台」以解决产业级大模型生产效率问题:让模型训得更快、推得更稳、成本更低、业务接入更简单。我们构建了 Relax RL 训练框架、RedSlim 模型压缩工具、rLLM 推理部署框架、DirectLLM MaaS 系统和 QuickSilver 大模型生产平台,持续支撑社区、大商业、国际化、审核、企业智能等小红书核心业务的大模型落地。在这里,你会面对千卡级后训练、高并发推理、EPD 分离与 KV Cache 复用、低比特模型量化、国产异构芯片性能优化、万卡级 GPU 调度等真实业务的大规模 AI Infra 挑战。加入团队后,你可以专注单一Infra方向深耕,也可以参与跨方向系统设计,成长为真正理解大模型全链路的 AI Infra 工程师。团队持续参与开源与行业技术交流,Relax RL框架已对外开源,期待有志于构建生产级 Infra 能力并持续提升个人行业影响力的优秀同学加入。 工作职责: 1、RL 后训练框架研发: 负责 Relax RL 后训练框架的核心研发,支持 SFT、DPO、PPO、GRPO、RLVR 等主流后训练范式,持续追踪并落地前沿算法。 2、RL Pipeline 优化: 设计高效的 RL 训练 Pipeline,优化 Rollout、Reward Model、Actor、Reference Model 等模块间的资源调度与动态协同,提升端到端训练吞吐。 3、分布式训练优化: 基于 Megatron、DeepSpeed、veRL 等框架,针对 RL 场景调优 TP / PP / DP / ZeRO / Sequence Parallel 等并行策略,在性能、显存与稳定性之间取得最优平衡。 4、千卡训练稳定性建设: 攻克大规模训练中的显存管理、跨节点通信、弹性容错、任务调度与数据流转等核心挑战,提升训练成功率与集群资源利用率。 5、异构芯片训练适配: 负责训练框架在国产异构计算芯片(升腾 / PPU 等)上的适配与优化,完成模型迁移、算子支持、框架适配、Profiling 与 Kernel 调优,推动国产算力在训练场景的规模化使用。 6、后训练工具链建设: 构建端到端后训练工具链,打通训练框架与 MLOps 平台,提供训练可视化、自动超参搜索、故障诊断等生产级能力,降低算法团队使用门槛。 7、业务协同与算法探索: 与算法团队紧密协作,支撑 LLM / MLLM / Agent 等业务方向在 SFT 与 RL 领域的算法探索与工程落地。 任职资格: 1、精通 PyTorch,具备训练框架源码级阅读与修改能力,有实际性能优化经验。 2、熟练掌握 Megatron、DeepSpeed、veRL、OpenRLHF、TRL、Llama-Factory 中至少一种框架的使用与二次开发。 3、理解分布式训练核心技术,包括 TP、PP、DP、ZeRO、序列并行、梯度累积、混合精度训练等。 4、熟悉 RLHF、DPO、PPO、GRPO 等大模型后训练流程,有实际训练调优或框架开发经验优先。 5、具备模型训练性能分析经验,能借助 Nsight Systems / Compute、nvprof、PyTorch Profiler 等工具定位训练性能瓶颈。 6、具备良好的工程实现能力、沟通协作能力和问题闭环意识。 加分项: 1、有千卡级大模型训练或后训练实战经验,成功解决过跨节点通信、容错训练、显存优化、训练稳定性等生产级问题。 2、熟悉 NCCL / RDMA / InfiniBand / RoCE 等高性能网络通信机制,能独立定位跨机通信瓶颈。 3、有 CUDA Kernel 开发经验,如 Fused Operator、FlashAttention、通信计算重叠(Overlap)等性能优化。 4、有国产异构芯片(升腾 Ascend、平头哥 PPU)训练适配或 Kernel 开发经验,熟悉 CANN / ROCm 等基础软件栈;有大模型在国产芯片上规模化落地实战经验者优先。 5、深入理解 GPU / NPU 硬件架构(Tensor Core、内存层级、计算单元、通信拓扑),能结合硬件特性进行差异化训练优化方案设计。 6、参与过 Megatron、DeepSpeed、veRL、OpenRLHF、TRL 等开源项目的核心模块开发或贡献。 7、在大模型训练、分布式系统或 MLSys 方向有高水平学术论文发表。

    二维码微信扫一扫,及时了解投递状态
    头像您目前还没有登录:立即登录

    工作职责: 我们是小红书大模型基建部,负责公司级 AI 大模型全链路基础设施建设。我们不是单点工具团队,而是完整闭环「算力 - 框架 - 平台」以解决产业级大模型生产效率问题:让模型训得更快、推得更稳、成本更低、业务接入更简单。我们构建了 Relax RL 训练框架、RedSlim 模型压缩工具、rLLM 推理部署框架、DirectLLM MaaS 系统和 QuickSilver 大模型生产平台,持续支撑社区、大商业、国际化、审核、企业智能等小红书核心业务的大模型落地。在这里,你会面对千卡级后训练、高并发推理、EPD 分离与 KV Cache 复用、低比特模型量化、国产异构芯片性能优化、万卡级 GPU 调度等真实业务的大规模 AI Infra 挑战。加入团队后,你可以专注单一Infra方向深耕,也可以参与跨方向系统设计,成长为真正理解大模型全链路的 AI Infra 工程师。团队持续参与开源与行业技术交流,Relax RL框架已对外开源,期待有志于构建生产级 Infra 能力并持续提升个人行业影响力的优秀同学加入。 工作职责: 1、RL 后训练框架研发: 负责 Relax RL 后训练框架的核心研发,支持 SFT、DPO、PPO、GRPO、RLVR 等主流后训练范式,持续追踪并落地前沿算法。 2、RL Pipeline 优化: 设计高效的 RL 训练 Pipeline,优化 Rollout、Reward Model、Actor、Reference Model 等模块间的资源调度与动态协同,提升端到端训练吞吐。 3、分布式训练优化: 基于 Megatron、DeepSpeed、veRL 等框架,针对 RL 场景调优 TP / PP / DP / ZeRO / Sequence Parallel 等并行策略,在性能、显存与稳定性之间取得最优平衡。 4、千卡训练稳定性建设: 攻克大规模训练中的显存管理、跨节点通信、弹性容错、任务调度与数据流转等核心挑战,提升训练成功率与集群资源利用率。 5、异构芯片训练适配: 负责训练框架在国产异构计算芯片(升腾 / PPU 等)上的适配与优化,完成模型迁移、算子支持、框架适配、Profiling 与 Kernel 调优,推动国产算力在训练场景的规模化使用。 6、后训练工具链建设: 构建端到端后训练工具链,打通训练框架与 MLOps 平台,提供训练可视化、自动超参搜索、故障诊断等生产级能力,降低算法团队使用门槛。 7、业务协同与算法探索: 与算法团队紧密协作,支撑 LLM / MLLM / Agent 等业务方向在 SFT 与 RL 领域的算法探索与工程落地。 任职资格: 1、精通 PyTorch,具备训练框架源码级阅读与修改能力,有实际性能优化经验。 2、熟练掌握 Megatron、DeepSpeed、veRL、OpenRLHF、TRL、Llama-Factory 中至少一种框架的使用与二次开发。 3、理解分布式训练核心技术,包括 TP、PP、DP、ZeRO、序列并行、梯度累积、混合精度训练等。 4、熟悉 RLHF、DPO、PPO、GRPO 等大模型后训练流程,有实际训练调优或框架开发经验优先。 5、具备模型训练性能分析经验,能借助 Nsight Systems / Compute、nvprof、PyTorch Profiler 等工具定位训练性能瓶颈。 6、具备良好的工程实现能力、沟通协作能力和问题闭环意识。 加分项: 1、有千卡级大模型训练或后训练实战经验,成功解决过跨节点通信、容错训练、显存优化、训练稳定性等生产级问题。 2、熟悉 NCCL / RDMA / InfiniBand / RoCE 等高性能网络通信机制,能独立定位跨机通信瓶颈。 3、有 CUDA Kernel 开发经验,如 Fused Operator、FlashAttention、通信计算重叠(Overlap)等性能优化。 4、有国产异构芯片(升腾 Ascend、平头哥 PPU)训练适配或 Kernel 开发经验,熟悉 CANN / ROCm 等基础软件栈;有大模型在国产芯片上规模化落地实战经验者优先。 5、深入理解 GPU / NPU 硬件架构(Tensor Core、内存层级、计算单元、通信拓扑),能结合硬件特性进行差异化训练优化方案设计。 6、参与过 Megatron、DeepSpeed、veRL、OpenRLHF、TRL 等开源项目的核心模块开发或贡献。 7、在大模型训练、分布式系统或 MLSys 方向有高水平学术论文发表。

    二维码微信扫一扫,及时了解投递状态
    头像您已有可投递的在线简历:点击投递
    简历完成度50%,完善简历才能找到好工作:完善简历

    公司介绍

    企业尚未更新

    工作地点

    地址上海市

    查看地图

    看了此职位的人还会看
    查看更多相似的职位 >>

    公司信息 公司信息

    公司信息 给我留言

    推荐职位 相关公司推荐

    • 头像

      福州宏格达尔信息科技有限公司

      热招1个职位
      查看
    • 头像

      凯莫(上海)教育科技有限公司

      热招2个职位
      查看
    • 头像

      上海勤博集装箱服务有限公司

      热招2个职位
      查看
    • 头像

      上海若济生物医药科技有限公司

      热招1个职位
      查看
    • 头像

      上海朔朔网络科技有限公司

      热招1个职位
      查看
    二维码

    扫描二维码及时订阅职位

    最新职位信息第一时间知晓

    上海兼职招聘

    • 扫码下载APP

      上海招聘网APP
    • 扫码进小程序

      上海招聘网小程序

    服务信息

    联系电话: 13916151478 杨老师

    服务时间:08:00-18:00

    上海人才招聘 | 上海招聘网 | 上海找工作 | 上海招聘 | 上海人才招聘网

    Copyright 2012-2022 上海招聘网 All Rights Reserved

    详细地址:江西省南昌市青山湖区高新大道万象汇9号楼7楼

    版权所有:江西易职邦网络科技有限公司

    ICP证:赣ICP备2021008707号-3 赣公网安备 36010202000584号

    技术支持:南昌传爱网络科技有限公司

    关注公众号

    服务时间08:00-24:00

    微信公众号

    微信公众号

    招聘交流群

    招聘交流群

    微信小程序

    微信小程序

    微信扫一扫

    面试通知

    收藏

    简历

    足迹

    微信求职

    关注公众号

    掌握最新求职动态

    微信公众号

    小程序

    进入小程序

    随时随地找工作

    小程序