💼 Full-Time Position

腾讯云乐享-强化学习算法研究员

🏢

Tencent

📍 Shenzhen, Guangdong Province, China

📍

Location

Shenzhen, China

📅

Posted

June 22, 2026

⏰

Type

Full-Time

🎯

Full-Time Opportunity: This is a permanent, full-time position with a competitive package and real career growth potential.

Job Description

                        腾讯云乐享-强化学习算法研究员 深圳 分享 
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
 收藏 CSIG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月03日 渴望为世界带来新意的人，早已对描绘未来的“热词”不陌生——人工智能、机器学习、数据科学等等。腾讯始终在业界前沿不断探索，积极布局，并为优秀的你提供无限广阔的舞台。我们坚信科技的不断革新，最终能带来美好的、撼动人心的改变。
 岗位职责 1.作为研究者，探索有效的 Agentic Workflow 和 Agentic Memory 设计来解决代码领域的问题；
2.主要关注比SFT泛化效果更好的强化学习；能结合实际用户需求、产生的用户数据、agent的实现细节，调整训练语料和训练目标；
3.能和agent开发高效沟通，设计memory存取逻辑，并且通过模型训练让模型适配自己设计的agent；
4.作为工程师，考虑到 LLM inference 对推理算力的高消耗，设计出合理的前后端交互，前端架构，后端架构，在有限的推理算力下，做出完整的 Agentic Workflow 解决方案。最好是探索一套通用可扩展的 Agentic Workflow 解决方案。
 岗位要求 1.自然语言处理/机器学习/模式识别/人工智能/计算机等相关专业硕士以上学历；
2.有工程编码经验，熟练掌握 Python，C/C++，Golang，Java，JavaScript，TypeScript 等至少一种语言；
3.掌握深度学习基础知识，能根据具体问题做针对性优化，熟悉深度学习中不同任务及相应的主流模型和算法；
4.对 Prompt Engineering、Agentic Workflow、GRPO等新的基于GPT结构的NLP强化学习方法 有实践经验；
5.有高质量论文发表者优先（如ACL、EMNLP、NeurIPS、ICML、ICLR等)。

Job Details

Job Type Full-Time

Location Shenzhen, Guangdong Province

Country China

Posted June 22, 2026

Deadline August 01, 2026

Experience As specified