Skip to Main Content

Job Title


Senior ML Platform / ML Infrastructure Engineer II


Company : ODAIA


Location : Toronto,


Created : 2026-05-02


Job Type : Full Time


Job Description

Mistplay est l''application de fidlit n1 pour les joueurs mobiles. Notre communaut de millions de joueurs mobiles engags utilise Mistplay pour dcouvrir de nouveaux jeux et gagner des rcompenses. Les joueurs sont rcompenss pour le temps et l''argent qu''ils consacrent aux jeux et peuvent changer ces rcompenses contre des cartes cadeaux. Mistplay a pour mission d''tre le meilleur moyen de jouer des jeux mobiles pour tous, partout dans le monde ! Tlchargez Mistplay sur le Google Play Store et suivez-nous sur , et . **Veuillez noter :** Au Canada , Mistplay suit un modle hybride de 2 jours/semaine en bureau Toronto (400 University Ave) & Montral (1001 Blvd. Robert-Bourassa)Mistplay is the #1 loyalty app for mobile gamers. Our community of millions of engaged mobile gamers come to Mistplay to discover new games to play and earn rewards. Gamers are rewarded for their time and money spent within the games and can redeem those rewards for gift cards. Mistplay is on a mission to be the best way to play mobile games for everyone everywhere! Download Mistplay on the Google Play Store and follow us on , and .** Please Note:** In Canada , Mistplay follows a 2 days/week in-office hybrid model in Toronto (400 University Ave) & Montreal (1001 Blvd. Robert-Bourassa)***English Description is Below ***Rattach au vice-prsident de la plateforme de donnes et d''apprentissage automatique (Data and Machine Learning Platform), l''ingnieur Staff en plateforme ML au sein de l''quipe de donnes de Mistplay jouera un rle cl dans la recherche et le dveloppement de solutions d''apprentissage automatique pour rsoudre des problmes commerciaux complexes. L''ingnieur Staff en plateforme ML travaillera en troite collaboration avec une quipe interfonctionnelle pour identifier les domaines amliorer, concevoir et mettre en uvre des solutions volutives. L''exprience pertinente peut aller de l''infrastructure de travail et des logiciels pour prendre en charge les applications d''apprentissage automatique sur une grande varit de systmes de recommandation en ligne, de systmes d''apprentissage par renforcement ou d''autres applications d''apprentissage automatique en ligne.**Ce que vous ferez**tre le principal moteur et expert pour la conception, la construction et l''exploitation de : Solutions d''infrastructure machine et de donnes pour l''entranement des modles. Systmes d''infrence en temps rel pour exploiter et servir des modles dans un environnement de production en temps rel. Capacits de plateforme de fonctionnalits de haute convivialit et prcision pour gnrer, remplir rtrospectivement et stocker des fonctionnalits au niveau de l''utilisateur. Couche de service de fonctionnalits haute prcision et faible latence, et solutions de pr-traitement pour prendre en charge le service en ligne des modles. Construire des abstractions de plateforme et des chemins dors (golden paths) : modles Airflow DAG, CLI/SDK, dpts cookie-cutter et pipelines CI/CD qui font passer les modles des notebooks la production de manire prvisible. Mettre en uvre l''observabilit de bout en bout : vrifications de la fracheur des donnes/fonctionnalits, portes de drive/qualit, SLO de performance/latence des modles, tableaux de bord de sant de l''infrastructure, traage et alertes, plus rponse aux incidents et analyses post-mortem. Collaborer avec la scurit, SRE et l''ingnierie des donnes sur les rseaux privs, la politique en tant que code, la gestion des informations personnelles identifiables (PII), la gestion des accs et des identits (IAM) du moindre privilge et les architectures rentables dans tous les environnements. valuer, intgrer et rationaliser les outils de plateforme (par exemple, registre MLflow, magasins de fonctionnalits, passerelles de service); mener des migrations avec une gestion claire des changements et un temps d''arrt minimal.**Ce que vous apporterez** 10 ans et plus d''exprience dans la construction et l''exploitation de plateformes ML/de donnes de qualit production, en mettant l''accent sur le service, la fiabilit et l''exprience dveloppeur. Solides comptences en gnie logiciel en Python, Go ou Java; exprience dans la cration de services rsilients, d''API et d''outils d''automatisation avec une couverture de tests leve. Exprience approfondie avec les solutions d''infrence : configuration de point de terminaison, conteneurisation, packaging de modles, mise l''chelle automatique (autoscaling), compromis entre sans serveur (serverless) et temps rel, MME, dploiements A/B et canary. Expertise des paradigmes de magasin de fonctionnalits en ligne (online feature store) et des solutions de stockage sous-jacentes dans les contextes de service ML. Exprience avre avec Terraform pour la gestion de l''infrastructure ML et de donnes de bout en bout : modules, espaces de travail, dtection de drive, rvisions de changements et restaurations scurises (safe rollbacks); familiarit avec les modles GitOps. Orchestration Airflow grande chelle : modlisation de dpendances, capteurs, nouvelles tentatives, ANS (SLAs), remplissages rtrospectifs (backfills), usines de DAG et intgrations avec les registres, les magasins d''artefacts et les pipelines Terraform. Familiarit avec les frameworks ML (scikit-learn, XGBoost, PyTorch, TensorFlow) du point de vue de l''intgration de la plateforme pour prendre en charge divers environnements d''excution (runtimes) et conteneurs. Observabilit pour les flux de travail ML : mtriques/journaux/traces, profilage des performances, planification de la capacit, surveillance des cots et procdures d''excution (runbooks). Excellente communication et collaboration interfonctionnelle avec la Science des Donnes, l''Ingnierie des Donnes, le DevOps et le Backend.**English Description:**Reporting to the VP of Data and Machine Learning Platform, the Staff ML Platform Engineer within Mistplays Data Team will play a key role in researching and developing machine learning solutions to solve complex business problems. The Staff ML Platform Engineer will work closely with a cross-functional team to identify areas for improvement and design and implement scalable solutions. Relevant experience can range from working infrastructure and software to support machine learning applications on a wide variety of online recommendation systems, reinforcement learning systems or other online machine learning applications.**What youll do:**Be the main driver and expert for designing, building, and operating: Machine and data infrastructure solutions for training models Real-time inference systems to operate and serve models in a real time production environment. High usability and accuracy feature platform capabilities for generating, backfilling and storing user level features. High accuracy low latency feature serving layer and preprocessing solutions to support online serving of the models Build platform abstractions and golden paths: Airflow DAG templates, CLI/SDKs, cookie-cutter repos, and CI/CD pipelines that take models from notebooks to production predictably. Implement end-to-end observability: data/feature freshness checks, drift/quality gates, model performance/latency SLOs, infra health dashboards, tracing, and alertingplus incident response and postmortems. Partner with Security, SRE, and Data Engineering on private networking, policy-as-code, PII handling, least-privilege IAM, and cost-efficient architectures across environments. Evaluate, integrate, and rationalize platform tooling (e.g., MLflow registry, feature stores, serving gateways); lead migrations with clear change management and minimal downtime.**What youll bring:** 10+ years building and operating production-grade ML/data platforms with a focus on serving, reliability, and developer experience. Strong software engineering in #J-18808-Ljbffr