What you'd actually do

Own post-training strategy for model development — from RLHF and preference optimization to agentic systems and long-horizon reasoning

Design evaluation frameworks for long-horizon reasoning, tool use, agentic behavior, safety, and real-world workflow completion

Manage, mentor, and grow a team of AI scientists

Develop novel algorithms that improve model reliability, controllability, and alignment

Make principled architectural decisions about when to address challenges at the pre-training, post-training, or system level

Skills

Required

reinforcement learning for foundation models
post-training methods (RLHF, RLAIF, DPO, PPO)
leading or mentoring technical research teams
intuition for model behavior, alignment challenges, and post-training trade-offs
designing evaluation systems
communicating complex technical trade-offs
PhD

Nice to have

human-in-the-loop evaluation
model analysis and interpretability

Job Requisition ID #

26WD98297

26WD98297, Research Lead / Principal Scientist & Manager Post-Training · Alignment · Reinforcement Learning Autodesk AI Lab: Toronto · Remote

French translation to follow!/Traduction française à suivre!

About Autodesk AI Lab

Autodesk AI Lab advances state-of-the-art research across generative AI, multimodal foundation models, reasoning systems, and human-AI collaboration. Our work has direct impact across the industries that shape the physical world. We are an active contributor to the global research community and collaborate closely with leading academic and industry labs.

At Autodesk, we are building a diverse workplace and an inclusive culture to give more people the chance to imagine, design, and make a better world. Autodesk is proud to be an equal opportunity employer and considers all qualified applicants for employment without regard to race, color, religion, age, sex, sexual orientation, gender identity, national origin, disability, veteran status, or any other legally protected characteristic.

Position Overview

Foundation models are reshaping how engineers, architects, and designers work — but training foundation models that are reliable, domain-capable systems is still an open research problem.

Autodesk touches more of the physical world than almost any other software company. The products we build are used to design skyscrapers, manufacture aircraft, and produce films. AI is now central to how those workflows are evolving — and post-training is the layer that makes the difference between a capable model and one that is dependable and robust in our customers’ high-precision domains.

As Research Lead for Post-Training & Alignment, you will own Autodesk's research strategy for transforming foundation models into systems that are reliable, aligned, and genuinely useful in complex, domain-specific workflows. This is a deeply technical leadership role — you will shape research direction, drive key architectural decisions, and remain close to the work.

You will lead a growing team of AI scientists while continuing to contribute directly to research: running experiments, developing novel algorithms, and publishing at top-tier venues.

Autodesk's domains — architecture, engineering, construction, manufacturing, media & entertainment — provide a distinctive research environment: rich structured data, long-horizon reasoning tasks, and real-world evaluation grounded in professional workflows. Uniquely, decades of investment in physics simulation engines, CAD kernels, and computational design tools give us something most labs don't have: high-fidelity, domain-grounded verifiers that can serve as reward signals for post-training. Rather than relying solely on human preference data, we can ground reinforcement learning in the laws of physics and the constraints of real engineering. These are exactly the kinds of challenges — and assets — that make post-training and alignment research here genuinely distinctive.

We publish at NeurIPS, ICML, ICLR, CVPR, and SIGGRAPH. We collaborate with leading academic and industry labs. And we have a direct line from research advances to product impact at scale. This is not a role where research sits behind a wall from engineering — you will see your work matter.

This role reports to the Senior Director of AI Research within Autodesk AI Lab.

Post-Training · Alignment · Reinforcement Learning

Autodesk AI Lab: London · San Francisco · Toronto · Remote (US/CA/EU)

Responsibilities

Research & Technical Leadership

Own post-training strategy for model development — from RLHF and preference optimization to agentic systems and long-horizon reasoning
Develop novel algorithms that improve model reliability, controllability, and alignment
Make principled architectural decisions about when to address challenges at the pre-training, post-training, or system level
Design and run experiments that shape model behavior, robustness, and reasoning quality
Partner with infrastructure teams to build scalable, reproducible post-training workflows
Contribute to publications, patents, and Autodesk's external research visibility

Evaluation & Model Quality

Design evaluation frameworks for long-horizon reasoning, tool use, agentic behavior, safety, and real-world workflow completion
Lead rigorous model analysis and interpretability efforts
Drive human-in-the-loop evaluation with high annotation quality and sound scientific methodology
Establish model readiness criteria and provide go/no-go recommendations for releases
Communicate technical risks, limitations, and trade-offs clearly to leadership

Team & Organizational Leadership

Manage, mentor, and grow a team of AI scientists
Set technical direction and research priorities across post-training and alignment initiatives
Foster a research culture grounded in scientific rigor, reproducibility, and fast iteration
Help recruit world-class talent across ML, RL, alignment, and foundation models
Partner closely with pre-training teams, infrastructure, product organizations, and other stakeholders
Translate research trade-offs into clear, decision-ready guidance for leadership

Minimum Qualifications

We care about research judgment and outcomes, not credential checklists. Strong candidates will typically have:

Deep hands-on expertise in reinforcement learning for foundation models, and fluency with post-training methods (RLHF, RLAIF, DPO, PPO, or adjacent approaches)
Proven experience leading or mentoring technical research teams — whether in an academic lab, AI research organization, or industry setting
Strong intuition for model behavior, alignment challenges, and post-training trade-offs
Experience designing evaluation systems and thinking rigorously about what it means for a model to be ready
Ability to communicate complex technical trade-offs clearly to both technical and non-technical audiences
A PhD or equivalent depth of industry research experience in ML, RL, AI, or a related field

Preferred Qualifications

Experience at a frontier model lab or advanced applied AI organization
A strong publication record at leading ML or AI venues
Background in alignment research, preference learning, or agentic AI
Experience deploying or supporting production AI systems
Familiarity with large-scale training infrastructure and compute trade-offs

The Ideal Candidate

In the first year, success means:

Post-trained models show measurable improvements in reliability, alignment, reasoning quality, and domain usefulness
Evaluation metrics and release criteria are trusted and adopted across teams
The team delivers high-quality research with practical impact — and team members are growing into stronger, more independent researchers
Leadership relies on your judgment for model readiness, technical direction, and risk assessment
Autodesk AI Lab advances its reputation as a serious contributor to frontier AI research

26WD98297, Responsable de recherche / Chercheur principal et responsable de la formation post-apprentissage · Alignement · Apprentissage par renforcement Autodesk AI Lab : Toronto · Télétravail

À propos d'Autodesk AI Lab

Autodesk AI Lab mène des recherches de pointe dans les domaines de l'IA générative, des modèles de base multimodaux, des systèmes de raisonnement et de la collaboration entre l'humain et l'IA. Nos travaux ont un impact direct sur les secteurs qui façonnent le monde physique. Nous contribuons activement à la communauté mondiale de la recherche et collaborons étroitement avec des laboratoires universitaires et industriels de premier plan.

Chez Autodesk, nous construisons un lieu de travail diversifié et une culture inclusive afin de donner à davantage de personnes la chance d’imaginer, de concevoir et de créer un monde meilleur. Autodesk est fier d'être un employeur garantissant l'égalité des chances et prend en considération toutes les candidatures qualifiées sans distinction de race, de couleur, de religion, d'âge, de sexe, d'orientation sexuelle, d'identité de genre, d'origine nationale, de handicap, de statut d'ancien combattant ou de toute autre caractéristique protégée par la loi.

Présentation du poste

Les modèles de base sont en train de transformer la façon dont les ingénieurs, les architectes et les concepteurs travaillent — mais la formation de modèles de base fiables et adaptés à un domaine spécifique reste un problème de recherche non résolu.

Autodesk touche davantage le monde physique que presque toute autre entreprise de logiciels. Les produits que nous développons sont utilisés pour concevoir des gratte-ciel, fabriquer des avions et produire des films. L’IA est désormais au cœur de l’évolution de ces flux de travail — et le post-entraînement est la couche qui fait la différence entre un modèle performant et un modèle fiable et robuste dans les domaines de haute précision de nos clients.

En tant que responsable de la recherche en post-entraînement et alignement, vous serez en charge de la stratégie de recherche d’Autodesk visant à transformer les modèles de base en systèmes fiables, alignés et véritablement utiles dans des flux de travail complexes et spécifiques à un domaine. Il s’agit d’un poste de direction hautement technique : vous définirez l’orientation de la recherche, piloterez les décisions architecturales clés et resterez au cœur de l’action.

Vous dirigerez une équipe grandissante de chercheurs en IA tout en continuant à contribuer directement à la recherche : en menant des expériences, en développant des algorithmes novateurs et en publiant dans des revues de premier plan.

Les domaines d’Autodesk — architecture, ingénierie, construction, fabrication, médias et divertissement — offrent un environnement de recherche unique : des données structurées riches, des tâches de raisonnement à long terme et une évaluation en conditions réelles ancrée dans des flux de travail professionnels. De manière unique, des décennies d’investissement dans les moteurs de simulation physique, les noyaux de CAO et les outils de conception computationnelle nous confèrent un atout que la plupart des laboratoires n’ont pas : des vérificateurs haute fidélité, ancrés dans le domaine, pouvant servir de signaux de récompense pour le post-entraînement. Plutôt que de nous fier uniquement aux données de préférences humaines, nous pouvons ancrer l’apprentissage par renforcement dans les lois de la physique et les contraintes de l’ingénierie réelle. Ce sont précisément ces types de défis — et d'atouts — qui rendent la recherche sur le post-entraînement et l'alignement ici véritablement unique.

Nous publions dans NeurIPS, ICML, ICLR, CVPR et SIGGRAPH. Nous collaborons avec des laboratoires universitaires et industriels de premier plan. Et nous disposons d'un lien direct entre les avancées de la recherche et l'impact des produits à grande échelle. Il ne s'agit pas d'un poste où la recherche est isolée de l'ingénierie : vous verrez que votre travail a un impact réel.

Ce poste est rattaché au directeur principal de la recherche en IA au sein de l’Autodesk AI Lab.

Post-entraînement · Alignement · Apprentissage par renforcement

Autodesk AI Lab : Londres · San Francisco · Toronto · À distance (États-Unis/Canada/UE)

Responsabilités

Leadership en matière de recherche et de technologie

Définir la stratégie de post-entraînement pour le développement de modèles — du RLHF et de l’optimisation des préférences aux systèmes agentiels et au raisonnement à long terme
Développer des algorithmes novateurs qui améliorent la fiabilité, la contrôlabilité et l’alignement des modèles
Prendre des décisions architecturales fondées sur des principes pour déterminer quand relever les défis au niveau de la pré-formation, de la post-formation ou du système
Concevoir et mener des expériences qui façonnent le comportement, la robustesse et la qualité du raisonnement des modèles
Collaborer avec les équipes d’infrastructure pour mettre en place des workflows de post-formation évolutifs et reproductibles
Contribuer aux publications, aux brevets et à la visibilité de la recherche externe d’Autodesk

Évaluation et qualité des modèles

Concevoir des cadres d'évaluation pour le raisonnement à long terme, l'utilisation des outils, le comportement agentique, la sécurité et l'exécution des flux de travail en conditions réelles
Diriger des efforts rigoureux d'analyse et d'interprétabilité des modèles
Mener des évaluations « human-in-the-loop » avec une annotation de haute qualité et une méthodologie scientifique solide
Établir des critères de maturité des modèles et fournir des recommandations de lancement ou de suspension pour les versions
Communiquer clairement les risques techniques, les limites et les compromis à la direction

Direction d'équipe et organisationnelle

Gérer, encadrer et développer une équipe de chercheurs en IA
Définir l'orientation technique et les priorités de recherche pour les initiatives de post-entraînement et d'alignement
Favoriser une culture de recherche fondée sur la rigueur scientifique, la reproductibilité et l'itération rapide
Contribuer au recrutement de talents de classe mondiale dans les domaines du ML, du RL, de l'alignement et des modèles de base
Travailler en étroite collaboration avec les équipes de pré-entraînement, les équipes d'infrastructure, les organisations produit et les autres parties prenantes
Traduire les compromis de recherche en recommandations claires et prêtes à l'emploi pour la direction

Qualifications minimales

Nous accordons de l’importance au jugement et aux résultats de la recherche, et non à une liste de diplômes. Les candidats idéaux possèdent généralement :

Une expertise pratique approfondie en apprentissage par renforcement pour les modèles de base, et une maîtrise des méthodes de post-entraînement (RLHF, RLAIF, DPO, PPO ou approches connexes)
Une expérience avérée dans la direction ou l'encadrement d'équipes de recherche technique — que ce soit dans un laboratoire universitaire, un organisme de recherche en IA ou en milieu industriel
Une intuition solide concernant le comportement des modèles, les défis d'alignement et les compromis post-entraînement
Une expérience dans la conception de systèmes d'évaluation et une réflexion rigoureuse sur ce que signifie pour un modèle d'être prêt
La capacité à communiquer clairement des compromis techniques complexes à des publics tant techniques que non techniques
Un doctorat ou une expérience de recherche industrielle d'un niveau équivalent en ML, RL, IA ou dans un domaine connexe

Qualifications souhaitées

Expérience au sein d’un laboratoire de modèles de pointe ou d’un organisme spécialisé en IA appliquée avancée
Un solide palmarès de publications dans des revues de référence en ML ou en IA
Expérience en recherche sur l’alignement, l’apprentissage par préférence ou l’IA agentique
Expérience dans le déploiement ou le support de systèmes d’IA en production
Connaissance des infrastructures de formation à grande échelle et des compromis en matière de calcul

Le candidat idéal

Au cours de la première année, le succès se mesure comme suit :

Les modèles post-entraînés présentent des améliorations mesurables en termes de fiabilité, d'alignement, de qualité du raisonnement et d'utilité dans le domaine
Les indicateurs d'évaluation et les critères de mise en production sont reconnus et adoptés par toutes les équipes
L'équipe produit des recherches de haute qualité ayant un impact concret — et les membres de l'équipe deviennent des chercheurs plus solides et plus autonomes
La direction s'appuie sur votre jugement pour évaluer l'état de préparation des modèles, définir l'orientation technique et évaluer les risques
Autodesk AI Lab renforce sa réputation en tant que contributeur majeur à la recherche de pointe en IA

Learn More

About Autodesk

Welcome to Autodesk! Amazing things are created every day with our software – from the greenest buildings and cleanest cars to the smartest factories and biggest hit movies. We help innovators turn their ideas into reality, transforming not only how things are made, but what can be made.

We take great pride in our culture here at Autodesk – it’s at the core of everything we do. Our culture guides the way we work and treat each other, informs how we connect with customers and partners, and defines how we show up in the world.

When you’re an Autodesker, you can do meaningful work that helps build a better world designed and made for all. Ready to shape the world and your future? Join us!

Salary transparency

Salary is one part of Autodesk’s competitive compensation package. For Canada based roles, we expect a starting base salary between $0 and $0. Offers are based on the candidate’s experience and geographic location, and may exceed this range. In addition to base salaries, our compensation package may include annual cash bonuses, commissions for sales roles, stock grants, and a comprehensive benefits package.

Diversity & Belonging We take pride in cultivating a culture of belonging where everyone can thrive. Learn more here: https://www.autodesk.com/company/diversity-and-belonging

**Are you an existing contractor or consultant with Autodesk? **

Please search for open jobs and apply internally (not on this external site).