Spécialiste en fiabilité de site / Site Reliability developer (Devops)

Programming · Frisco, TX or Quebec, CAN, Quebec
Department Programming
Employment Type Full Time - Undetermined Term
Minimum Experience Mid-level

Scroll for English version


Spécialiste en fiabilité de site (SRE)


Spark est l'équipe de Gearbox Software derrière SHiFT, notre plateforme de services en ligne qui sert des millions d'utilisateurs chaque mois dans plusieurs franchises de jeux. SHiFT est notre plateforme de services de jeu à guichet unique, responsable de dizaines de fonctionnalités dont les joueurs du monde entier dépendent chaque jour, du cross-play à la présence d'amis, en passant par la science citoyenne, l'hébergement de serveurs dédiés, le matchmaking, et bien plus encore. Spark est passionné à rendre disponible des fonctionnalités pertinentes, fiables et sécurisées à ses partenaires de jeu. Nous sommes fiers de la stabilité de notre plateforme et nous sommes toujours à la recherche de moyens pour améliorer cette stabilité. Notre équipe est agile et s'engage à ce que les fonctionnalités passent du bureau à la production en quelques minutes, et non en quelques jours.


Poste


Afin de concrétiser notre vision d'une stabilité de premier ordre et d'une livraison rapide des fonctionnalités, nous recherchons un ou une spécialiste en fiabilité de site expérimenté pour rejoindre notre équipe. En tant que Spécialiste en fiaibilité de site sur Spark, vous serez chargé de contribuer à la conception et à la mise en œuvre d'architectures d’infonuagiques flexibles en mettant l'accent sur l'automatisation. Vous serez mis au défi d'adopter la mentalité commune selon laquelle l'observabilité est essentielle et de faire en sorte que cette philosophie soit appliquée à l'ensemble de la plate-forme. Vous devez être à l'aise avec l'intégration de plusieurs technologies pour former une vue unique et cohérente de l'état de la plateforme. Vous devez avoir une expertise dans les meilleures pratiques de sécurité de l’infonuagique et des microservices. Lorsqu'on vous demande de concevoir et de mettre en œuvre une nouvelle fonctionnalité dans l'infrastructure, vous êtes sûr de vous dans les deux cas, prêt à les défendre dans une salle avec d'autres esprits techniques. Vous reconnaissez également que les meilleures conceptions sont le fruit d'une collaboration, et non d’une imposition, et vous êtes prêt à apporter des implémentations à la table avec un esprit ouvert.


Journée type


Tl;dr : Vous serez profondément immergé dans AWS et Terraform ; beaucoup de développement Go et/ou Node.js s’invitera de la partie également.

Vos journées seront remplies par l'élaboration de solutions aux défis techniques en matière de sécurité, d'observabilité et de disponibilité de notre pipeline de commerce électronique et de cartes-cadeaux. Vous serez le porte-parole des meilleures pratiques en matière de sécurité, vous signalerez les lacunes en matière d'observabilité et vous vous soucierez de l'expérience des utilisateurs en ce qui concerne les services que vous prenez en charge. Vous aiderez à gérer et à orchestrer chacun de ces services en vous appuyant fortement sur des technologies telles que Terraform, Docker, Bash et Go. Chaque jour, vous devez vous attendre à passer au moins 75 % de votre temps à concevoir activement des solutions ; le reste sera un mélange de révision du code de vos collègues, de définition des SLI et SLO, de participation aux réunions de conception, de documentation et d'auto-développement.

Pour ce poste, vous serez appelé à être sur appel en rotation avec vos collègues afin de fournir un service 24 heures sur 24 et 7 jours sur 7. Mais ne vous inquiétez pas, notre expérience sur appel n'est pas horrible.


Responsabilités principales :

  • Être une voix de confiance dans l'évangélisation de la mise en place de fiabilité au sein de l'équipe.
  • Promouvoir les discussions qui définissent les SLI (indicateur de niveau de service) et SLO (objectif de niveau de service) appropriés des services.
  • Concevoir et développer les meilleures pratiques pour garantir l'observabilité, la fiabilité et la sécurité.
  • Participer aux rotations d'assistance sur appel après les heures de travail.


Exigences (les éléments non négociables) :

  • Maîtrise des fonctions de gestion, d'orchestration et d'observabilité des conteneurs AWS (ECS, Fargate, Aurora, AppConfig, CloudWatch, etc.).
  • Maîtrise de Terraform et/ou CloudFormation.
  • Expérience professionnelle de la gestion des services d'accès et de sécurité AWS (IAM, kms, Secrets Manager, WAFv2, etc.)
  • Minimum de 3 ans d'expérience dans une grande variété de technologies AWS dans un cadre professionnel.
  • Minimum de 2 ans d'expérience avec les conteneurs dans un cadre professionnel, de préférence Docker
  • Expérience professionnelle du développement avec au moins un des éléments suivants : Go, Python, Node.js
  • Expérience dans la définition de SLI et SLO pour des applications hautement disponibles basées sur le cloud.
  • Compréhension de la gestion de la pile d'observabilité (surveillance, alerte, journalisation structurée, APM, etc.)
  • Vous êtes un communicateur à l'aise, capable de détailler clairement les conceptions et les mises en œuvre au niveau individuel et dans des groupes importants.


Vous devriez avoir (c’est pour avoir une marge de manoeuvre) :

  • Une expérience pratique du développement et de la maintenance de pipelines CI/CD, de préférence dans git/GitLab.
  • Compréhension des API RESTful et Websocket.
  • Baccalauréat en informatique, dans un domaine connexe, ou formation et expérience professionnelle équivalentes.


Et avec les éléments suivants, nous sommes juste faits l'un(e) pour l'autre :

  • Tout titre de sécurité vérifiable (isc2, AWS security specialist, ethical hacking, security+, etc.)
  • Expérience de travail dans des programmes de commerce de détail/eCommerce
  • Familiarité avec OpenTelemetry / OpenSLO
  • Familiarité avec Datadog / Honeycomb
  • Familiarité avec les produits Atlassian (OpsGenie, JIRA, Confluence)
  • Expérience de travail avec des développeurs dans un environnement agile
  • Expérience dans l'industrie des jeux, de préférence dans le lancement de plusieurs AAA en ligne.
  • Connaissance des IPs appartenant à Gearbox


Gearbox Studio Québec

Situé dans la magnifique ville de Québec, notre studio est à une courte distance de marche des quartiers les plus vivants, restaurants, bars, parcs et cafés. Nous aimons créer des jeux et adorons y jouer. Nous récompensons le travail au mérite et offrons de nombreux avantages: assurances collectives, contribution au REER des employés, formation spécialisée, gestion du temps flexible, et autres.


****


Site Reliability Developper (SRE)


Spark is the Gearbox Software team behind SHiFT, our online services platform that serves millions of users every month across multiple gaming franchises. SHiFT is our one-stop-shop gaming services platform responsible for dozens of features gamers around the world depend on every day, from cross-play to friend presence, citizen science, dedicated server hosting, matchmaking, and much more. Spark is passionate about delivering features for our gaming partners that are relevant, dependable, and secure. We take pride in the stability of our platform and are always looking for ways to take that stability to new levels. Our team is agile with a commitment to seeing features go from desktop to production in minutes, not days.


Position

To further drive our vision of premier stability and rapid feature delivery, we are looking for a mid-level Site Reliability Developper to join our team. As an SRE on Spark, you will be responsible for assisting in the design and implementation of flexible cloud architectures with an automation-first emphasis. You will be challenged along the way to adopt the shared mentality that observability is everything and push for that philosophy to be actualized throughout the platform. As an SRE you should be comfortable integrating multiple technologies together to form a single, coherent view of platform health. You should have expertise in cloud and microservice security best practices. When challenged with designing and implementing a new feature in the infrastructure, you are confident in both, ready to defend them in a room with other technical minds. You also recognize that the best designs come from collaboration, not dictation, and are willing to bring implementations to the table with an open mind.


Typical Day

Tl;dr: You will be deeply immersed in AWS and Terraform; plenty of Go and/or Node.js development is sprinkled in as well.

Your days will be filled with building solutions to technical challenges in security, observability, and availability of our eCommerce / gift card pipeline. You will evangelize security best practices, call out gaps in observability, and be immensely concerned with user experience as it relates to the services you support. You will help manage and orchestrate each of these by leaning heavily on technologies like Terraform, Docker, Bash, and Go. On any given day, you should expect to spend at least 75% of your time actively engineering solutions; the rest will be a mixture of reviewing code from your colleagues, defining SLIs and SLOs, participating in design meetings, documentation, and self-development.

This position will require you to carry a company-paid mobile device and participate in 24/7 on-call rotations alongside your engineering colleagues. Don't worry though, our on-call experience doesn't suck.


Core Responsibilities:

  • Be a trusted voice in the evangelism of reliability engineering throughout the team
  • Champion discussions that define appropriate SLIs and SLOs of services
  • Design and engineer best practices for ensuring the observability, reliability, and security
  • Participate in after-hours on-call support rotations


Must Have (the non-negotiable parts):

  • Proficiency in AWS container management, orchestration, and observability features (ECS, Fargate, Aurora, AppConfig, CloudWatch, etc.)
  • Proficiency in Terraform and/or CloudFormation
  • Professional Experience managing AWS access and security services (IAM, kms, Secrets Manager, WAFv2, etc.)
  • Minimum of 3 years experience in a wide variety of AWS technologies in a professional setting
  • Minimum of 2 years experience with containers in a professional setting, preferably Docker
  • Professional development experience with at least one of: Go, Python, Node.js
  • Experience defining SLIs and SLOs for highly available cloud-based applications
  • Understanding of observability stack management (monitoring, alerting, structured logging, APM, etc.)
  • Comfortable communicator, able to clearly detail designs and implementations on an individual level and in large group settings


Should Have (some wiggle room):

  • Hands-on experience developing and maintaining CI/CD pipelines, preferably in git/GitLab
  • Understanding of RESTful and Websocket based APIs
  • Bachelor's degree in computer science, related field, or equivalent training and professional experience


Now you're just showing off:

  • Any verifiable security credential (isc2, AWS security specialist, ethical hacking, security+, etc.)
  • Experience working in retail/eCommerce programs
  • Familiarity with OpenTelemetry / OpenSLO
  • Familiarity with Datadog / Honeycomb
  • Familiarity with Atlassian products (OpsGenie, JIRA, Confluence)
  • Experience working with developers in an agile environment
  • Experience in the games industry, preferably launching multiple online-enabled AAAs
  • Knowledge about Gearbox-owned IPs



Gearbox Studio Québec

Located in beautiful Quebec City, our studio is a short walk away from the the city's most vibrant districts, bars, restaurants, parks and coffee shops. We love to create and play games. We reward teammates based on merit and offer a comprehensive health benefits package, generous RRSP matching, flexible time-off, training and numerous other perks.

Thank You

Your application was submitted successfully.

  • Location
    Frisco, TX or Quebec, CAN, Quebec
  • Department
    Programming
  • Employment Type
    Full Time - Undetermined Term
  • Minimum Experience
    Mid-level