À propos du rôle
Nous recherchons un ingénieur de données talentueux possédant une solide expérience en Python, SQL, NoSQL et en création et intégration d'API pour le streaming de données en quasi-direct. L'ingénieur de données jouera un rôle essentiel dans la conception, la création et la maintenance des pipelines de données, garantissant ainsi une circulation efficace de l'information au sein de l'organisation. Le candidat idéal possédera une solide compréhension de l'architecture des données, une passion pour le traitement de données à grande échelle et la capacité à fournir des informations clés pour la réussite commerciale du secteur de la distribution.
Responsabilités
Concevoir et développer des pipelines de données : créer et maintenir des pipelines de données évolutifs avec Python, garantissant l'accessibilité, la cohérence et la fiabilité des données. Développer, construire, tester et maintenir des architectures de données telles que des lacs de données, des bases de données et des systèmes de traitement à grande échelle.
Implémenter des processus ETL : utilisez AWS Glue et PySpark pour implémenter des processus ETL.
Créer et intégrer des API pour la diffusion de données en quasi-direct : développer et gérer des API pour faciliter la diffusion de données en quasi-direct, en s'intégrant à divers systèmes et plates-formes.
Collaborer avec les architectes de données : Travailler en étroite collaboration avec eux pour mettre en œuvre des modèles de données, des lacs de données et des entrepôts de données, en adéquation avec les objectifs organisationnels et les normes du secteur. Mettre en œuvre des projets de données complexes.
Collaborer avec les scientifiques des données : aider à résoudre les problèmes techniques liés aux données et soutenir leurs besoins en matière d'infrastructure de données.
Mettre en œuvre des solutions d'intégration de données : développer et gérer des stratégies d'intégration de données, y compris les services de publication/abonnement et de streaming de données, pour prendre en charge diverses plates-formes et systèmes.
Optimiser les performances : surveillez et optimisez les performances des systèmes de données, garantissant un fonctionnement fluide et une utilisation optimale des ressources.
Assurer la conformité des données : établir des politiques de gouvernance des données et respecter les exigences réglementaires, en préservant l’intégrité et la sécurité des données.
Soutenir les initiatives d’IA et d’apprentissage automatique : collaborer avec les équipes d’IA pour fournir un support de données pour les modèles et algorithmes d’apprentissage automatique.
Évaluation technologique : évaluer et mettre en œuvre de nouvelles technologies et de nouveaux outils qui correspondent à la vision de l'entreprise, y compris des plateformes cloud telles qu'AWS, GCP et Azure.
Compétences
Python, PySpark
AWS Glue, S3, Data Lake
Processus ETL
Terraform (plus)
Qualifications
Baccalauréat ou maîtrise en informatique, en technologie de l'information ou dans un domaine connexe.
3+ années d'expérience en ingénierie des données, modélisation de données ou domaines connexes.
Vaste expérience en Python, avec la capacité de développer des pipelines et des processus de données efficaces.
Connaissances et expérience des bases de données SQL et NoSQL, compréhension de la manière de manipuler et d'analyser efficacement les données.
Expérience dans la création et l'intégration d'API pour le streaming de données en quasi-direct, avec une compréhension approfondie de la synchronisation des données et du traitement en temps réel.
Connaissance des technologies de lac de données et d'entrepôt de données, et expérience d'au moins une mise en œuvre de données à grande échelle.
Connaissance des principales plateformes cloud telles qu'AWS, GCP et Azure, et expérience des services de publication/abonnement et de streaming de données.
Solide compréhension du secteur de la vente au détail, avec un accent sur les solutions axées sur la technologie.