• 财务系统
  • OA
  • 科研管理
  • 企业邮箱
  • English
  • 关于我们
    • 研究院概述
    • 发展历程
    • 组织架构
    • 人才队伍
      • 管理团队
  • 科学研究
    • 研究中心
      • 网络与机器智能研究中心
      • 人工智能大模型研究中心
      • 优化与工程计算研究中心
    • 科研项目
  • 成果转化
    • 产学研合作
    • 成果推介
  • 科研平台
    • 关联机构
      • 深圳国际工业与应用数学中心
      • 国家健康医疗大数据研究院(深圳)
    • 创新平台
      • 广东省智能工业孪生与优化工程技术研究中心
      • 广东省科技专家工作站 
      • 广东省科普教育基地
    • 高性能计算平台
  • 新闻动态
    • 新闻速递
    • 媒体聚焦
    • 影像刊物
      • 视频
      • 期刊
    • 采购招标公开信息
  • 学术交流
    • 学术论坛
    • 学术报告
    • 学生培养
    • 学人风采
    • 科普中心
  • 党群文化
  • 联系我们
    • 人才招聘
      • 岗位总览
      • 科研类职位
      • 工程类职位
      • 行政类职位
    • 联系方式
  • 关于我们
    • 研究院概述
    • 发展历程
    • 组织架构
    • 人才队伍
      • 管理团队
  • 科学研究
    • 研究中心
      • 网络与机器智能研究中心
      • 人工智能大模型研究中心
      • 优化与工程计算研究中心
    • 科研项目
  • 成果转化
    • 产学研合作
    • 成果推介
  • 科研平台
    • 关联机构
      • 深圳国际工业与应用数学中心
      • 国家健康医疗大数据研究院(深圳)
    • 创新平台
      • 广东省智能工业孪生与优化工程技术研究中心
      • 广东省科技专家工作站 
      • 广东省科普教育基地
    • 高性能计算平台
  • 新闻动态
    • 新闻速递
    • 媒体聚焦
    • 影像刊物
      • 视频
      • 期刊
    • 采购招标公开信息
  • 学术交流
    • 学术论坛
    • 学术报告
    • 学生培养
    • 学人风采
    • 科普中心
  • 党群文化
  • 联系我们
    • 人才招聘
      • 岗位总览
      • 科研类职位
      • 工程类职位
      • 行政类职位
    • 联系方式
  • 财务系统
  • OA
  • 科研管理
  • 企业邮箱
  • English
  • 关于我们
    • 研究院概述
    • 发展历程
    • 组织架构
    • 人才队伍
      • 管理团队
  • 科学研究
    • 研究中心
      • 网络与机器智能研究中心
      • 人工智能大模型研究中心
      • 优化与工程计算研究中心
    • 科研项目
  • 成果转化
    • 产学研合作
    • 成果推介
  • 科研平台
    • 关联机构
      • 深圳国际工业与应用数学中心
      • 国家健康医疗大数据研究院(深圳)
    • 创新平台
      • 广东省智能工业孪生与优化工程技术研究中心
      • 广东省科技专家工作站 
      • 广东省科普教育基地
    • 高性能计算平台
  • 新闻动态
    • 新闻速递
    • 媒体聚焦
    • 影像刊物
      • 视频
      • 期刊
    • 采购招标公开信息
  • 学术交流
    • 学术论坛
    • 学术报告
    • 学生培养
    • 学人风采
    • 科普中心
  • 党群文化
  • 联系我们
    • 人才招聘
      • 岗位总览
      • 科研类职位
      • 工程类职位
      • 行政类职位
    • 联系方式

系统研发工程师(AI Infra)

截止日期: 2026-12-31 工程类职位

一、岗位职责:

1.智算集群资源调度平台架构与研发:基于Kubernetes构建面向大规模智算集群(≥千卡规模)的资源调度平台;设计并实现GPU/NPU异构资源调度策略,支持算力分时复用、拓扑感知调度、弹性配额管理;开发节能调度算法,基于负载预测的动态功耗控制、基于利用率感知的节点启停策略;实现多维度调度,支持CPU/内存/显存/网络带宽/存储IO等多资源维度的综合调度决策;设计高可用、可扩展的调度平台架构,支持万级节点规模管理
2.数据治理与算子知识库建设:构建智算集群的统一数据治理框架;设计并实现资源使用数据采集、存储与分析流水线,覆盖利用率、功耗、故障等维度;开发性能数据血缘追踪系统,支持从训练任务到物理硬件的全链路性能溯源;构建面向大模型训练的算子性能知识库,实现算子知识问答和支撑算子自动生成
3.安全合规与产品化:设计并实现多租户安全隔离方案:网络隔离、数据加密、权限控制;满足等保三级/四级要求,建立安全审计、漏洞管理、入侵检测机制;将安全能力产品化封装,形成可交付的安全调度模块;将调度平台能力封装为标准化产品或解决方案
4.系统稳定性与性能优化:设计调度系统的高可用架构,实现故障自愈、状态同步;优化大规模调度决策延迟,支持秒级千任务调度决策;基于历史数据预测集群容量需求,指导硬件采购与部署
5.技术与团队建设:制定调度平台技术路线图,跟踪业界最新技术(如Kueue、Volcano、Katalyst等);指导中级工程师,建立团队技术规范与实践;与硬件团队、算法团队、运维团队紧密协作,推动平台落地

二、任职要求:
1.至少3年Kubernetes调度器开发或深度优化经验,熟悉kube-scheduler扩展机制 
2.熟悉调度框架、优先级与抢占、亲和性策略,熟练掌握装箱算法、负载均衡、弹性伸缩等经典调度算法 
3.掌握数据治理方法:有数据采集、存储、分析系统开发经验,了解数据血缘、质量监控 
4.有实际安全整改项目经验,熟悉等保要求,具备安全产品化落地经验,了解零信任架构、容器安全、网络安全策略 
5.精通Go/Python,熟悉Linux内核机制,具备系统级问题排查能力,具备复杂系统架构设计经验,能够设计高并发、高可用的分布式系统,熟悉微服务架构、服务网格、可观测性体系建设 
6.加分项:有大型智算/超算中心调度系统开发经验;有绿色计算/节能调度项目经验(如参与国家绿色数据中心项目);熟悉Kubernetes生态调度项目(如Volcano、Kube-batch、Kueue)并有贡献;有安全产品认证经验(如等保测评、安全评估)

三、申请材料及程序:

1、材料:

完整的个人简历(中英文)。

2、程序

请将以上申请材料发送至recruitment@sribd.cn

邮件主题应为:姓名-最高学历-毕业院校-专业-申请的岗位名称;如“张三-博士-XX大学-软件工程-AI大模型开发工程师”,研究院人力资源处将对申请材料进行初选,初选合格者将受邀参加远程面试。

四、联系方式

联系人:关老师

联系电话: 86-755-23517558

 
关注我们
  •  
  •  
  •  
  • 联系我们
    • 联系方式
  • 协同机构
    • 国家超级计算深圳中心
    • 深圳市科创局
    • 龙岗区科创局
    • 香港中文大学(深圳)
  • 友情链接
版权所有 © 深圳市大数据研究院 粤ICP备 16049670号     粤公网安备44030702004592