💼 Full-Time Position

AI ⽹络集合通信库运营⼯程师

🏢
Tencent
📍 Beijing, Beijing, China
📍
Location
Beijing, China
📅
Posted
June 29, 2026
Type
Full-Time
🎯

Full-Time Opportunity: This is a permanent, full-time position with a competitive package and real career growth potential.

Job Description

AI ⽹络集合通信库运营⼯程师 北京 分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 TEG 点击了解更多BG信息 技术 两年以上工作经验 更新于年06月29日
  • 在腾讯,优秀的技术运营工程师始终赋能业务,关注技术运营的质量、成本、效率和安全。他们不仅是经验丰富的问题解决者,更是具有全局视角的架构师,通过自动化工具的建设,强力提升平台效能,助力业务发展。
  • 岗位职责
  • 1.通信库运营保障:负责集合通信库(如 NCCL 等)在⼤规模 AI 训练/推理集群中的部署、配置、升级与⽇常运营,确保通信服务的⾼可⽤性和性能达标;
    2.性能监控与优化:建设通信性能监控体系,持续跟踪 AllReduce/AllGather/All-to-All 等关键通信算⼦的带宽和延迟指标,识别性能退化并驱动优化;
    3.故障诊断与恢复:快速响应训练 hang、通信超时、性能下降等故障,具备从业务现象出发逐层定位到通信库、传输层、硬件层根因的能⼒,缩短 MTTR;
    4.业务⽀撑协同:与上层训练/推理框架团队紧密协作,理解不同并⾏策略(TP/PP/DP/EP/CP)对通信的需求,提供通信层⾯的调优建议;
    5.⼯具与⾃动化建设:参与或主导通信诊断⼯具、⾃动化巡检、异常检测等运营⼯具的开发,提升运营效率和故障⾃愈能⼒;
    6.容量规划与技术演进:根据业务增⻓和新硬件(NVLink/InfiniBand/RoCE)的引⼊,参与集群通信架构规划和通信库版本选型评估。
  • 岗位要求
  • 一.基本要求;
    1.计算机科学、通信⼯程、电⼦⼯程或相关专业,本科及以上学历;
    2.两年以上相关⼯作经验(集合通信库开发、HPC 通信优化、AI 基础设施运营等⽅向均可);
    二、专业技能;
    1.集合通信原理:深⼊理解集合通信算⼦(AllReduce、AllGather、ReduceScatter、All-to-All 等)的原理和实现算法(Ring、Tree、Double Binary Tree 等),了解算法选择对性能的影响;
    2.通信库实践:熟悉 NCCL 架构...