欢迎访问上海招聘网!本站为上海找工作求职者提供上海人才招聘、上海人才市场、上海人才网等岗位信息!


职位月薪: 面议
工作职责: 我们希望你参与 1. 建设可持续演进的大模型评测体系; 2. 提升评测自动化程度与评测效率; 3. 推动评测数据、评测框架与评测方法持续迭代; 4. 用系统化评测驱动模型能力提升。 1. 负责大语言模型(LLM)评测体系建设,包括评测方案设计、评测指标定义、评测流程标准化等,建立可持续演进的评测能力体系; 2. 负责评测框架开发与维护,建设自动化、可扩展、高可靠的评测系统,提高评测效率与覆盖度; 3. 负责 Public Benchmark 与 In-house Benchmark 的建设与维护,包括评测集构建、数据清洗、版本管理、持续迭代与优化; 4. 根据模型迭代重点与业务需求,持续补充评测维度,动态优化评测集结构,提升评测集有效性与区分度; 5. 深入分析模型能力边界与问题分布,识别模型优势、短板与退化风险,建立问题发现与质量拦截机制; 6. 跟踪行业模型发展趋势,对主流模型进行横向评测与能力分析,量化模型能力变化与行业水平; 7. 参与模型训练与迭代过程中的评测建设,支撑模型研发闭环。 任职要求: 1. 本科及以上学历; 2. 熟练掌握 Python,具备较强工程能力与代码能力; 3. 具备较强的问题分析能力、实验设计能力与自主探索能力; 4. 有大模型评测相关经验,包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等; 5. 有 LLM Eval 相关经验,对模型训练与迭代过程中的评测方法有一定理解; 6. 熟悉开源 Benchmark、评测框架或评测方法论,对评测集构建、优化与质量分析有实践经验; 面向对象: 2027届及之后毕业的在校生
微信扫一扫,及时了解投递状态
您目前还没有登录:立即登录工作职责: 我们希望你参与 1. 建设可持续演进的大模型评测体系; 2. 提升评测自动化程度与评测效率; 3. 推动评测数据、评测框架与评测方法持续迭代; 4. 用系统化评测驱动模型能力提升。 1. 负责大语言模型(LLM)评测体系建设,包括评测方案设计、评测指标定义、评测流程标准化等,建立可持续演进的评测能力体系; 2. 负责评测框架开发与维护,建设自动化、可扩展、高可靠的评测系统,提高评测效率与覆盖度; 3. 负责 Public Benchmark 与 In-house Benchmark 的建设与维护,包括评测集构建、数据清洗、版本管理、持续迭代与优化; 4. 根据模型迭代重点与业务需求,持续补充评测维度,动态优化评测集结构,提升评测集有效性与区分度; 5. 深入分析模型能力边界与问题分布,识别模型优势、短板与退化风险,建立问题发现与质量拦截机制; 6. 跟踪行业模型发展趋势,对主流模型进行横向评测与能力分析,量化模型能力变化与行业水平; 7. 参与模型训练与迭代过程中的评测建设,支撑模型研发闭环。 任职要求: 1. 本科及以上学历; 2. 熟练掌握 Python,具备较强工程能力与代码能力; 3. 具备较强的问题分析能力、实验设计能力与自主探索能力; 4. 有大模型评测相关经验,包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等; 5. 有 LLM Eval 相关经验,对模型训练与迭代过程中的评测方法有一定理解; 6. 熟悉开源 Benchmark、评测框架或评测方法论,对评测集构建、优化与质量分析有实践经验; 面向对象: 2027届及之后毕业的在校生
企业尚未更新
上海市
扫描二维码及时订阅职位
最新职位信息第一时间知晓
上海兼职招聘
360行任你挑选
分秒必争直达HR
谁看我简历早知道
请使用微信【扫一扫】
关注「上海易职邦招聘」公众号完成登录
客服电话:400-765-0056
竭诚为您服务
服务时间08:00-24:00
微信小程序
面试通知
收藏
简历
足迹
微信求职
关注公众号
掌握最新求职动态
小程序
进入小程序
随时随地找工作