欢迎访问上海招聘网!本站为上海找工作求职者提供上海人才招聘、上海人才市场、上海人才网等岗位信息!


职位月薪: 面议
【岗位职责】 1.负责AI平台的日常运维与监控,包括GPU集群、分布式训练平台及推理服务; 2.管理和优化AI算力资源(GPU/CPU/存储/网络),实现高效调度、弹性伸缩与成本优化; 3.支持大模型和小模型的训练、微调、推理任务,保障算力任务稳定运行; 4.建立AI平台的自动化运维体系,包括监控、日志、告警、任务调度、资源隔离与容灾; 5.跟踪AI框架与平台(PyTorch、TensorFlow、vLLM、DeepSpeed、Horovod等)的技术发展并应用到运维体系; 6.制定AI平台运维规范与最佳实践,协同研发团队优化训练/推理效率; 7.处理AI平台故障与性能瓶颈,形成应急响应与持续改进方案。 【任职条件】 1.本科及以上学历,计算机、人工智能、网络工程等相关专业优先; 2.2年及以上AI平台运维或高性能计算(HPC)运维经验; 3.熟悉GPU集群管理(NVIDIA CUDA、NCCL、Slurm、K8s GPU Operator等); 4.熟悉AI框架(PyTorch、TensorFlow等)及分布式训练工具(DeepSpeed、Horovod、Ray等); 5.熟悉容器化与云原生技术(Docker、Kubernetes、Kubeflow),具备AI任务调度与隔离经验; 6.具备性能调优与故障排查能力,能解决算力瓶颈与任务失败问题; 7.具备文档编写与跨部门协作能力,能推动AI平台高效落地。 【优先条件】 -主导或参与过大规模GPU集群、AI平台或大模型训练平台的运维项目; -熟悉多云/混合云环境下的AI资源调度与成本优化; -具备AI推理服务优化经验(vLLM、TensorRT、ONNX Runtime)。
微信扫一扫,及时了解投递状态
您目前还没有登录:立即登录【岗位职责】 1.负责AI平台的日常运维与监控,包括GPU集群、分布式训练平台及推理服务; 2.管理和优化AI算力资源(GPU/CPU/存储/网络),实现高效调度、弹性伸缩与成本优化; 3.支持大模型和小模型的训练、微调、推理任务,保障算力任务稳定运行; 4.建立AI平台的自动化运维体系,包括监控、日志、告警、任务调度、资源隔离与容灾; 5.跟踪AI框架与平台(PyTorch、TensorFlow、vLLM、DeepSpeed、Horovod等)的技术发展并应用到运维体系; 6.制定AI平台运维规范与最佳实践,协同研发团队优化训练/推理效率; 7.处理AI平台故障与性能瓶颈,形成应急响应与持续改进方案。 【任职条件】 1.本科及以上学历,计算机、人工智能、网络工程等相关专业优先; 2.2年及以上AI平台运维或高性能计算(HPC)运维经验; 3.熟悉GPU集群管理(NVIDIA CUDA、NCCL、Slurm、K8s GPU Operator等); 4.熟悉AI框架(PyTorch、TensorFlow等)及分布式训练工具(DeepSpeed、Horovod、Ray等); 5.熟悉容器化与云原生技术(Docker、Kubernetes、Kubeflow),具备AI任务调度与隔离经验; 6.具备性能调优与故障排查能力,能解决算力瓶颈与任务失败问题; 7.具备文档编写与跨部门协作能力,能推动AI平台高效落地。 【优先条件】 -主导或参与过大规模GPU集群、AI平台或大模型训练平台的运维项目; -熟悉多云/混合云环境下的AI资源调度与成本优化; -具备AI推理服务优化经验(vLLM、TensorRT、ONNX Runtime)。
企业尚未更新
上海-浦东新区
扫描二维码及时订阅职位
最新职位信息第一时间知晓
上海兼职招聘
360行任你挑选
分秒必争直达HR
谁看我简历早知道
请使用微信【扫一扫】
关注「上海易职邦招聘」公众号完成登录
客服电话:400-765-0056
竭诚为您服务
服务时间08:00-24:00
微信小程序
面试通知
收藏
简历
足迹
微信求职
关注公众号
掌握最新求职动态
小程序
进入小程序
随时随地找工作