A télécharger
Apprenti Data Scientist SNDS
Référence du poste : DATA-Appr-2026-02
Cette offre vous intéresse ?
Nous rejoindre
Vous avez envie de faire carrière au sein d'un organisme public qui a pour mission de protéger efficacement la santé des populations ? Rejoignez-nous.
Santé publique France est l’agence nationale de santé publique française. Etablissement public de l’Etat sous tutelle du ministre chargé de la santé, issu de la fusion de plusieurs établissements publics, créé par l’ordonnance 2016-246 du 15 avril 2016, l’agence intervient au service de la santé des populations. Agence scientifique, d’expertise et de sécurité sanitaires, elle a pour missions :
- L'observation épidémiologique et la surveillance de l'état de santé des populations ;
- La veille sur les risques sanitaires menaçant les populations ;
- La promotion de la santé et la réduction des risques pour la santé ;
- Le développement de la prévention et de l'éducation pour la santé ;
- La préparation et la réponse aux menaces, alertes et crises sanitaires ;
- Le lancement de l'alerte sanitaire.
L’agence est organisée autour de 12 directions scientifiques, transversales ou assurant le soutien à l’activité.
Les orientations stratégiques de l’agence et son programme de travail, arrêtés par son Conseil d’administration, se déclinent en trois axes : Consolider la capacité d’anticipation et de réponse réactive pour faire face aux menaces sanitaires ; Mesurer et évaluer l’ampleur des maladies et des facteurs de risques pour guider leur prévention et leur contrôle ; Renforcer l’impact sur la santé dans toutes les politiques publiques et la prévention et promotion de la santé.
Direction Appui, Traitements et Analyses des données
Mission
La direction DATA pilote des projets structurants pour moderniser les chaînes de traitement des données médico-administratives, avec une attention particulière portée sur le Système National des Données de Santé (SNDS). Ces initiatives mobilisent des méthodes innovantes en statistique et en ingénierie des données, afin de répondre aux défis majeurs de santé
publique par l’analyse avancée de données massives, la modélisation prédictive et l’intégration de sources hétérogènes. Trois axes prioritaires illustrent cette démarche :
- Reconstituer les trajectoires des patients au sein du SNDS pour mieux évaluer l’impact des expositions environnementales et des inégalités sociales et territoriales sur la santé.
- Construire des scores pronostiques à partir du SNDS en déployant une infrastructure facilitant la création et la validation des modèles (sélection et ingénierie de données, modélisation, validation et évaluation). L’objectif est de standardiser la production de scores robustes et reproductibles, tout en accélérant leur mise à disposition pour la recherche et la décision.
- Démocratiser l’accès et l’analyse des données médico-administratives complémentaires, telles que l’EDP-santé et faciliter leur appariement avec des données complémentaires de santé, socio-économiques et/ou environnementales pour favoriser des analyses plus intégrées et transversales (One Health, approche vie entière, …)
Activités
Au sein de l’unité ABISS de la direction DATA et sous la responsabilité du responsable de l’unité, l’apprenti·e Data Engineer/Scientist SNDS participera activement à la conception, au développement et à l’optimisation des chaînes de traitement et d’analyse des données du Système National des Données de Santé (SNDS). Il·elle contribuera à des projets structurants visant à moderniser l’exploitation des données médico-administratives, en mobilisant des méthodes avancées en ingénierie des données, en statistique et en intelligence artificielle.
Ses activités s’articuleront autour des missions suivantes :
- Contribution à la modernisation des chaînes de traitement des données SNDS : Participation à la conception et à l’amélioration des extractions / traitements de données médico-administratives, en collaboration avec les équipes de la direction DATA et les directions métiers de l’agence. Cela inclut l’automatisation des processus d’extraction et de transformation, l’optimisation des requêtes et des traitements et leur mise à disposition (direction métiers, open source).
- Analyse et valorisation des données médico-administratives : participation à la reconstitution de trajectoires résidentielles et à l’appariement des données SNDS avec des sources complémentaires (socio-économiques, environnementales, etc.).
- Développement de modèles prédictifs : Appui à la construction et à la validation de modèles avancés, depuis la sélection et l’ingénierie de descripteurs jusqu’à leur évaluation. L’apprenti·e contribuera à la mise en place d’une infrastructure automatisée pour standardiser la production de modèles robustes et reproductibles, en vue de leur déploiement pour la recherche et l’aide à la décision.
- Soutien à la veille méthodologique et technique : Contribution à la documentation, à la formation et à l’animation du réseau interne autour des bonnes pratiques d’exploitation du SNDS. L’apprenti·e pourra également participer à la mise à disposition des données via des outils d’analyse et de visualisation.
- Collaboration avec les partenaires institutionnels et académiques : Implication dans des projets collaboratifs avec des acteurs externes, afin de renforcer la qualité scientifique des travaux et d’intégrer les innovations méthodologiques dans les pratiques de l’agence.
- Veille technologique et formation continue : Participation active aux formations internes et aux permanences techniques organisées par l’unité ABISS, afin de maintenir une expertise à jour sur les outils et méthodes émergents en data science et en santé publique.
Ces activités s'intègrent dans un environnement technique dynamique et collaboratif, mobilisant des outils de développement modernes, des langages adaptés à la science des données, et des infrastructures de calcul performantes. L'apprenti évoluera au sein d'une équipe pluridisciplinaire, en interaction étroite avec des épidémiologistes, data scientists, statisticiens, ingénieurs et membres de la DSI ainsi que le RSSI.
Les principaux outils et technologies mobilisés incluent :
- Langages : R, Python et SAS
- Environnement collaboratif : GitLab (versionning, intégration continue, gestion des issues)
- Formats et bases de données : PostgreSQL, DuckDB, fichiers Parquet, CSV
- Visualisation : Quarto, Shiny (R et Python)
- Environnements de développement : VS Code, RStudio, IA Mistral
Nos dernières actualités
actualité
« Protéger la population des risques de l’alcool ». Le dossier de La Santé...
actualité
Appel à candidature pour compléter le Comité national des infections...
actualité