Ingenieur systemes & operation Usine GPU F/H

3ds

Saint-CloudLieu

Saint-Cloud

il y a 8 heures

Date de publication

il y a 8 heures

S/O

Niveau d'expérience

S/O

Temps pleinType de contrat

Temps plein

Systèmes d'information / RéseauxCatégorie d'emploi

Systèmes d'information / Réseaux

Nous recrutons un• e Ingénieur systèmes & operation Usine GPU afin de renforcer notre équipe AI Factory.

OUTSCALE, marque de Dassault Systèmes, est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.

Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l'obtention de la qualification SecNumCloud.

Vos missions

Déployer les couches logicielles, depuis les OS de base jusqu'aux couches d'abstraction de type hyperviseur de virtualisation, orchestrateur de container
Configurer les serveurs, des couches réseaux, en particulier du réseau Infiniband et des commutateurs Nvlink
Mettre en place les outils de supervision et de monitoring, en particulier :

La surveillance matérielle de l'usine à IA allant des moyens de refroidissement (CDU / échangeurs thermiques, identification des fuites d'eau), les moyens de calcul (serveurs), les équipements de communication réseau et fabric internes aux serveurs (Nvlink), les GPU (température, performance, utilisation)
La surveillance système pour toutes les couches logicielles de bas niveau
La surveillance des services qui seront définis
La surveillance de la disponibilité et de la performance du stockage
La surveillance des performances d'ensemble de bout-en-bout
La mise en place d'un cockpit de supervision permettant de visualiser de manière synthétique l'état de l'usine à GPU
La mise en place d'un dashboard management permettant de visualiser des éléments simplifiés à l'usage du management de l'entreprise et permettant de visualiser l'état de disponibilité des services et l'état des performances des services

Elaborer les dispositifs permettant l'automatisation des opérations, en particulier :

La mise à jour des composants logiciels
La relance / réparation (self-healing) des composants logiciels lorsque c'est faisable
L'isolation de GPU / nœuds / serveurs qui ne seraient plus en mesure d'exécuter des traitements
La relance des traitements sur un autre serveur lorsque cela est faisable au niveau applicatif

Elaborer les process de support, de gestion des incidents, de mise à jour des environnements (GPU / BIOS / NvSwitch / NIC)
Gérer la capacité avec identification en avance de phase des saturations, identifier les usages principaux et mettre en place les dashboards qui permettent la prise de décision sur les investissements à réaliser
Gérer la sécurité en relation avec les équipes Cyber Sécurité d'OUTSCALE
Gérer le réseau au sein des serveurs en relation avec les ingénieurs réseaux dédiés à l'AI Factory
Paramétrer les outils de management de l'usine à GPU
Paramétrer les accès au stockage, vérifier la performance d'accès au stockage pour l'ensemble des nœuds
Sauvegarder et restaurer les configurations qui permettent la relance de l'usine à GPU en cas de dysfonctionnement
Elaborer un plan de débordement afin d'utiliser une autre usine à GPU en cas de saturation
Elaborer un plan de secours permettant de redémarrer le service sur une autre usine à GPU en cas d'indisponibilité majeure
Assurer le support aux utilisateurs internes
Intégrer les nouveaux services développés par les équipes internes ou basés sur des solutions tierces (par exemple Nvidia)
Mettre en œuvre les outils Nvidia Mission Control et Nvidia Run:ai
Mettre en place le métrique de coût (€/TFLOPS, €/VM, €/heure GPU)

Stack technique

Administration système d'exploitation Linux (pas uniquement utilisateur)
Déploiement et opération de containers en particulier Docker et/ou Kubernetes
Déploiement et/ou administration d'infrastructure de supercalcul (HPC / High performance computing)
Administration réseau / connaissance de la stack IP / déploiement de réseaux Cisco / certification Cisco Cloud Expert AWS ou GCP ou Azure
Déploiement / administration d'hyperviseurs de virtualisation, ou de logiciels d'orchestration
Cloud Administration des outils de gestion d'infrastructure Nvidia : Mission Control et/ou Run:ai
L'une des certification suivante: Kubernetes CKA/CKS, Nvidia Certified, Cisco CCNP/CCIE, RedHat RHCE

Votre profil

Diplômé• e d'un Master en ingénierie informatique, ou en commerce, vous possédez déjà une expérience professionnelle post diplôme minimum de 2 ans en tant que ingénieur systemes & operation Usine GPU
Vous parlez français et anglaIs couramment
Vous appréciez travailler en équipe et possédez un bon relationnel.
Rigoureux, autonome et réactif, vous êtes naturellement force de proposition.

Nous rejoindre c'est aussi

Intégrer une entreprise scientifique au cœur de l'innovation technologique, portée par une forte croissance depuis plus de 40 ans

Principaux avantages et bénéfices :

Environnement multiculturel
Cadre de travail convivial axé sur le bien-être et la santé
Engagement en faveur de la diversité et de l'inclusion
Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc.

Inclusion statement

As a game-changer in sustainable technology and innovation, Dassault Systèmes is striving to build more inclusive and diverse teams across the globe. We believe that our people are our number one asset and we want all employees to feel empowered to bring their whole selves to work every day. It is our goal that our people feel a sense of pride and a passion for belonging. As a company leading change, it's our responsibility to foster opportunities for all people to participate in a harmonized Workforce of the Future.

Balises associées

RÉSUMÉ DE L' OFFRE

Ingenieur systemes & operation Usine GPU F/H

3ds

Saint-Cloud

il y a 8 heures

S/O

Temps plein

Ingenieur systemes & operation Usine GPU F/H