• 财务系统
  • OA
  • 科研管理
  • 企业邮箱
  • English
  • 关于我们
    • 研究院概述
    • 发展历程
    • 组织架构
    • 人才队伍
      • 管理团队
  • 科学研究
    • 研究中心
      • 网络与机器智能研究中心
      • 人工智能大模型研究中心
      • 优化与工程计算研究中心
    • 科研项目
  • 成果转化
    • 产学研合作
    • 成果推介
  • 科研平台
    • 关联机构
      • 深圳国际工业与应用数学中心
      • 国家健康医疗大数据研究院(深圳)
    • 创新平台
      • 广东省智能工业孪生与优化工程技术研究中心
      • 广东省科技专家工作站 
      • 广东省科普教育基地
    • 高性能计算平台
  • 新闻动态
    • 新闻速递
    • 媒体聚焦
    • 影像刊物
      • 视频
      • 期刊
    • 采购招标公开信息
  • 学术交流
    • 学术论坛
    • 学术报告
    • 学生培养
    • 学人风采
    • 科普中心
  • 党群文化
  • 联系我们
    • 人才招聘
      • 岗位总览
      • 科研类职位
      • 工程类职位
      • 行政类职位
    • 联系方式
  • 关于我们
    • 研究院概述
    • 发展历程
    • 组织架构
    • 人才队伍
      • 管理团队
  • 科学研究
    • 研究中心
      • 网络与机器智能研究中心
      • 人工智能大模型研究中心
      • 优化与工程计算研究中心
    • 科研项目
  • 成果转化
    • 产学研合作
    • 成果推介
  • 科研平台
    • 关联机构
      • 深圳国际工业与应用数学中心
      • 国家健康医疗大数据研究院(深圳)
    • 创新平台
      • 广东省智能工业孪生与优化工程技术研究中心
      • 广东省科技专家工作站 
      • 广东省科普教育基地
    • 高性能计算平台
  • 新闻动态
    • 新闻速递
    • 媒体聚焦
    • 影像刊物
      • 视频
      • 期刊
    • 采购招标公开信息
  • 学术交流
    • 学术论坛
    • 学术报告
    • 学生培养
    • 学人风采
    • 科普中心
  • 党群文化
  • 联系我们
    • 人才招聘
      • 岗位总览
      • 科研类职位
      • 工程类职位
      • 行政类职位
    • 联系方式
  • 财务系统
  • OA
  • 科研管理
  • 企业邮箱
  • English
  • 关于我们
    • 研究院概述
    • 发展历程
    • 组织架构
    • 人才队伍
      • 管理团队
  • 科学研究
    • 研究中心
      • 网络与机器智能研究中心
      • 人工智能大模型研究中心
      • 优化与工程计算研究中心
    • 科研项目
  • 成果转化
    • 产学研合作
    • 成果推介
  • 科研平台
    • 关联机构
      • 深圳国际工业与应用数学中心
      • 国家健康医疗大数据研究院(深圳)
    • 创新平台
      • 广东省智能工业孪生与优化工程技术研究中心
      • 广东省科技专家工作站 
      • 广东省科普教育基地
    • 高性能计算平台
  • 新闻动态
    • 新闻速递
    • 媒体聚焦
    • 影像刊物
      • 视频
      • 期刊
    • 采购招标公开信息
  • 学术交流
    • 学术论坛
    • 学术报告
    • 学生培养
    • 学人风采
    • 科普中心
  • 党群文化
  • 联系我们
    • 人才招聘
      • 岗位总览
      • 科研类职位
      • 工程类职位
      • 行政类职位
    • 联系方式

昇腾通信研发工程师(AI Infra)

截止日期: 2026-12-31 工程类职位

一、岗位职责:

1. 昇腾平台通信算子开发与优化:
基于华为昇腾AI处理器集群,设计并实现高性能通信算子;开发并优化大模型训练中的核心通信原语如AllReduce、AllGather、ReduceScatter、Broadcast等,特别针对梯度同步、模型参数分发场景;针对昇腾芯片的异构通信架构(片上NoC、芯片间HCCS、节点间RDMA/IB)进行通信路径优化
2. 大模型分布式训练通信栈构建:构建面向千亿参数大模型训练的高效通信库,支持数据并行、模型并行、流水线并行混合场景;优化ZeRO优化器系列(ZeRO-1/2/3)在昇腾平台上的通信实现,减少显存占用同时保持通信效率;开发通信计算重叠(Overlap) 机制,通过异步通信、流水线调度最大化训练吞吐
3. 拓扑感知与拥塞控制:实现拓扑感知的通信算法,自动适应昇腾集群的物理拓扑(Pod内全连接、Pod间层次化);开发动态通信策略选择,根据消息大小、拓扑特征自动选择通信算法(Ring、Halving-Doubling、Tree等);设计拥塞控制机制,避免多流通信时的带宽争用与延迟抖动
4. 通信性能分析与调优:使用昇腾通信性能分析工具(如Ascend Profiler通信视图、hccl-test工具);分析大模型训练中的通信热点,定位通信瓶颈(延迟、带宽、同步开销);为典型大模型训练任务(如Qwen3训练)提供通信优化方案与实践
5. 软硬件协同优化:深入理解昇腾HCCS(华为集群通信服务) 硬件特性,实现软硬件协同优化;优化Host-Device通信,减少PCIe数据拷贝与同步开销;参与昇腾通信库开源生态建设

二、任职要求:1.优先3年以上高性能计算或分布式训练通信开发经验,其中至少1年专注于昇腾平台HCCL开发或优化,熟悉计算机体系结构和分布式系统
2.精通华为昇腾HCCL(Huawei Collective Communication Library),有实际调优经验,熟悉昇腾芯片间通信架构如HCCS(片上互连)、RoCE、InfiniBand,了解昇腾多机多卡训练通信配置与性能调优方法
3.熟悉主流通信库实现原理(如NCCL、MPI、OpenMPI),了解Ring-AllReduce、Double-Binary-Tree等算法,熟练掌握昇腾等性能分析工具,能够独立分析复杂通信问题(如死锁、性能抖动、带宽不达标)
4.加分项:有千亿参数大模型在昇腾集群上训练,并主导通信优化经验;在开源通信库(NCCL、OpenMPI、UCX)中有代码贡献;有通信协议栈开发经验(如自定义可靠传输协议、拥塞控制算法)

三、申请材料及程序:

1、材料:

完整的个人简历(中英文)。

2、程序

请将以上申请材料发送至recruitment@sribd.cn

邮件主题应为:姓名-最高学历-毕业院校-专业-申请的岗位名称;如“张三-博士-XX大学-软件工程-AI大模型开发工程师”,研究院人力资源处将对申请材料进行初选,初选合格者将受邀参加远程面试。

四、联系方式

联系人:关老师

联系电话: 86-755-23517558

 
关注我们
  •  
  •  
  •  
  • 联系我们
    • 联系方式
  • 协同机构
    • 国家超级计算深圳中心
    • 深圳市科创局
    • 龙岗区科创局
    • 香港中文大学(深圳)
  • 友情链接
版权所有 © 深圳市大数据研究院 粤ICP备 16049670号     粤公网安备44030702004592