Job Description
为大规模分布式训练/推理、LLM等多种重计算任务设计和实现分布式计算方案,并对各类任务进行定制化优化。具体工作包括且不限于:
1,搭建分布式高性能计算框架,研究和实验新的分布式计算技术,基于主流分布式框架进行研发和优化
2,分析和优化训练计算效率,通过GPU算子优化、异步并发、IO优化等方式减少计算耗时
3,设计和优化网络架构,对各种任务partition和并行方式进行性能调优
4,领导和指导团队中的研究人员和工程师,共同解决大规模分布式计算中的挑战
1,搭建分布式高性能计算框架,研究和实验新的分布式计算技术,基于主流分布式框架进行研发和优化
2,分析和优化训练计算效率,通过GPU算子优化、异步并发、IO优化等方式减少计算耗时
3,设计和优化网络架构,对各种任务partition和并行方式进行性能调优
4,领导和指导团队中的研究人员和工程师,共同解决大规模分布式计算中的挑战