15 avril 2021

Dans le quotidien d’un·e Data Scientist

Vous les connaissez sûrement tous, ces buzzwords autour de la data et du Machine Learning, mais est-ce que vous savez comment ça se passe en vrai un projet de Machine Learning ?

Nastasia Saby a commencé sa carrière en tant que développeur back-end, et est aujourd’hui ingénieure Machine Learning. Elle travaille actuellement pour Konecranes, une entreprise dont le domaine principal est la vente et le service des engins de levage.

Dans cet épisode elle nous partage son quotidien de Data Scientist, depuis l’ingestion des données au monitoring des modèles.

Au programme donc du feature engineering, des tests de données, mais aussi de nouveaux buzzword (?) plus en phase avec la réalité du terrain, tels que le Data Drift et l’Explainability/Interpretability.

Bonne écoute !

Interview réalisée par @nivdul. Tous les épisodes du podcast sont disponibles sur SpotifySoundCloudApple PodcastsDeezer et via le flux RSS.

Écoute ce podcast dans ce lecteur ou dans ton appli de podcast préférée !

Pour aller plus loin

  • Quelques outils pour tester ses données : Deequ, Alibi-detect
  • Et versionner ses données : Delta-Lake, DVC 
  • Un livre recommandé par Nastasia pour avoir une vue du Machine Learning dans la vraie vie : Machine Learning Engineering – Andriy Burkov

Lectures sur le Data Drift

  • Characterizing Concept Drift – Geoffrey I Webb, Roy Hyde, Hong Cao, Hai-Long Nguyen et François Petitjean.
  • Survey of distance measures for quantifying concept drift and shift in numeric data – Igor Goldenberg et Geoffrey I Webb
  • Monitoring and explainability of models in production – Janis Klaise, Arnaud Van Looveren, Clive Cox, Giovanni Vacanti et Alexandru Coca
  • Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift Stephan Rabanser, Stephan Günnemann, Zachary C. Lipton

N’hésitez pas à suivre Nastasia sur son blog et son Twitter. Elle y partage ses expériences tech !

A écouter sur le domaine de la data, l’épisode Data Engineer, un métier à la portée de tous et toutes ? avec Tiffany Souterre ou encore Quand le Deep Learning se met à la peinture ? avec Anaëlle Laurans.