Principal Applied AI Developer, Foundation Models Infrastructure

Autodesk Autodesk · Enterprise · Quebec, CAN -, Toronto, ON +1 · Remote

Autodesk is seeking a Principal Applied AI Developer to define and accelerate the roadmap for their Machine Learning platform infrastructure. This role involves designing, developing, and evolving resilient, secure, scalable, and cost-effective platform services that support the entire ML model lifecycle, including training, inference, evaluation, deployment, and serving at a global scale. The position requires strong software engineering expertise, cloud-native technologies (Kubernetes, Ray, SageMaker, AWS), and the ability to lead complex, multi-team initiatives.

What you'd actually do

  1. Définir et piloter la stratégie technique relative aux capacités de l’infrastructure d’apprentissage automatique des modèles de base au sein de la plateforme d’apprentissage automatique d’Autodesk
  2. Diriger la conception et la mise en œuvre de services de plateforme à grande échelle prenant en charge l’ensemble du cycle de vie des modèles d’apprentissage automatique d’Autodesk, y compris l’entraînement, l’inférence, la mise en service, l’évaluation, le déploiement, la surveillance et les opérations
  3. Concevoir une infrastructure hautement résiliente, sécurisée, observable, évolutive et rentable pour les charges de travail d’IA et d’apprentissage automatique à grande échelle
  4. Créer et faire évoluer les API, les outils, les workflows et les fonctionnalités en libre-service destinés aux développeurs, permettant ainsi aux chercheurs et aux développeurs en apprentissage automatique d’avancer rapidement et en toute sécurité
  5. Travailler concrètement avec Kubernetes, Ray, SageMaker, AWS et les technologies cloud natives associées pour prendre en charge l’entraînement distribué, l’inférence évolutive et la mise en service des modèles en production

Skills

Required

  • Software engineering
  • Large-scale infrastructure systems
  • Cloud-native technologies
  • Kubernetes
  • Ray
  • SageMaker
  • AWS
  • Distributed training
  • Scalable inference
  • Model serving
  • API design
  • Developer tooling
  • CI/CD
  • Automated testing
  • Infrastructure as code

Nice to have

  • Machine learning
  • AI research
  • Product teams collaboration
  • Security and privacy teams collaboration
  • Platform partner collaboration
  • Agile methodologies
  • Kanban

What the JD emphasized

  • infrastructure des modèles de base
  • plateforme d’apprentissage automatique
  • cycle de vie des modèles d’apprentissage automatique
  • entraînement, l’inférence, l’évaluation, le déploiement et la mise en service
  • charges de travail d’IA et d’apprentissage automatique à grande échelle
  • API, les outils, les workflows et les fonctionnalités en libre-service destinés aux développeurs
  • Kubernetes, Ray, SageMaker, AWS et les technologies cloud natives associées
  • entraînement distribué, l’inférence évolutive et la mise en service des modèles en production
  • problèmes techniques à fort impact
  • objectifs de recherche en IA, des besoins produit et des exigences métier ambigus
  • initiatives techniques complexes impliquant plusieurs équipes
  • fiabilité, de l’évolutivité, des performances, de la sécurité, de la qualité et de la maîtrise des coûts
  • normes de la plateforme en matière de préparation à la production, d’observabilité, de SLA/SLO, de réponse aux incidents, de qualité des versions, de déploiement des modèles, de gestion des versions, de traçabilité et de gouvernance
  • critères de qualité et des pratiques de déploiement en production sécurisées, y compris les exigences en matière d’IA de confiance
  • productivité des développeurs grâce à la CI/CD, aux tests automatisés, à l’infrastructure en tant que code, aux tests contractuels, aux contrôles de qualité, à la documentation et à l’automatisation de la plateforme
  • analyse des causes profondes des problèmes systémiques en production
  • compromis entre performances, fiabilité, sécurité, coût, évolutivité et expérience des développeurs
  • Encadrer les développeurs seniors, rehausser les normes d’ingénierie et favoriser une culture d’appropriation, de qualité, d’action et de responsabilité

Other signals

  • platform
  • infrastructure
  • MLOps
  • large scale