系统研发工程师(AI Infra)
一、岗位职责:
1.智算集群资源调度平台架构与研发:基于Kubernetes构建面向大规模智算集群(≥千卡规模)的资源调度平台;设计并实现GPU/NPU异构资源调度策略,支持算力分时复用、拓扑感知调度、弹性配额管理;开发节能调度算法,基于负载预测的动态功耗控制、基于利用率感知的节点启停策略;实现多维度调度,支持CPU/内存/显存/网络带宽/存储IO等多资源维度的综合调度决策;设计高可用、可扩展的调度平台架构,支持万级节点规模管理
2.数据治理与算子知识库建设:构建智算集群的统一数据治理框架;设计并实现资源使用数据采集、存储与分析流水线,覆盖利用率、功耗、故障等维度;开发性能数据血缘追踪系统,支持从训练任务到物理硬件的全链路性能溯源;构建面向大模型训练的算子性能知识库,实现算子知识问答和支撑算子自动生成
3.安全合规与产品化:设计并实现多租户安全隔离方案:网络隔离、数据加密、权限控制;满足等保三级/四级要求,建立安全审计、漏洞管理、入侵检测机制;将安全能力产品化封装,形成可交付的安全调度模块;将调度平台能力封装为标准化产品或解决方案
4.系统稳定性与性能优化:设计调度系统的高可用架构,实现故障自愈、状态同步;优化大规模调度决策延迟,支持秒级千任务调度决策;基于历史数据预测集群容量需求,指导硬件采购与部署
5.技术与团队建设:制定调度平台技术路线图,跟踪业界最新技术(如Kueue、Volcano、Katalyst等);指导中级工程师,建立团队技术规范与实践;与硬件团队、算法团队、运维团队紧密协作,推动平台落地
二、任职要求:
1.至少3年Kubernetes调度器开发或深度优化经验,熟悉kube-scheduler扩展机制
2.熟悉调度框架、优先级与抢占、亲和性策略,熟练掌握装箱算法、负载均衡、弹性伸缩等经典调度算法
3.掌握数据治理方法:有数据采集、存储、分析系统开发经验,了解数据血缘、质量监控
4.有实际安全整改项目经验,熟悉等保要求,具备安全产品化落地经验,了解零信任架构、容器安全、网络安全策略
5.精通Go/Python,熟悉Linux内核机制,具备系统级问题排查能力,具备复杂系统架构设计经验,能够设计高并发、高可用的分布式系统,熟悉微服务架构、服务网格、可观测性体系建设
6.加分项:有大型智算/超算中心调度系统开发经验;有绿色计算/节能调度项目经验(如参与国家绿色数据中心项目);熟悉Kubernetes生态调度项目(如Volcano、Kube-batch、Kueue)并有贡献;有安全产品认证经验(如等保测评、安全评估)
三、申请材料及程序:
1、材料:
完整的个人简历(中英文)。
2、程序
请将以上申请材料发送至recruitment@sribd.cn
邮件主题应为:姓名-最高学历-毕业院校-专业-申请的岗位名称;如“张三-博士-XX大学-软件工程-AI大模型开发工程师”,研究院人力资源处将对申请材料进行初选,初选合格者将受邀参加远程面试。
四、联系方式
联系人:关老师
联系电话: 86-755-23517558