Job Description
职位描述
参与滴滴智能客服的对话模型研发工作,涉及客服基础模型训练、具体场景的模型微调
结合业务场景(文本对话/语音对话),构建下一代客服 Agent,驱动服务体验与效率提升
工作内容:
1、负责智能客服 Agent 底层模型的设计与训练工作,与产品、工程团队合作;
2、参与客服领域大模型后训练,如:数据流、SFT、DPO、GRPO 以及CPT等技术;
3、持续提升模型在具体业务场景上的效率与效果,解决领域模型的指令遵循、话术偏好、幻觉问题等;
4、密切跟进行业前沿,推进sota技术与业务场景落地,探索创新方法,推动技术创新。
任职要求
1、计算机科学、数学、统计学或相关领域的硕士及以上学历,良好的代码能力;
2、有丰富的模型训练经验,熟悉主流大模型训练框架(DeepSpeed、llama-factory、Trl、Unsloth 等),根据领域算法建模实现合适的工作流和训练方法;
3、具备强化学习经验,能实现对奖励信号的建模并能结合场景灵活应用,熟悉 OpenRLHF、verl 等强化学习框架;
4、对前沿新兴科技有高度好奇心与洞察力,学习能力强,能够主动发现问题并自主推进研究,从全局深度思考问题。
5、好奇心强,结果导向