Sobre a vaga
Senior DevOps e SRE para construir, evoluir e sustentar a infraestrutura e os pipelines de entrega contínua, com papel estratégico na escalabilidade, segurança e confiabilidade dos sistemas de um produto de saúde, atuando próximo aos times de desenvolvimento e dados.
Atuação prática
- Projetar e manter infraestrutura como código (Terraform) na AWS, com foco em AWS ECS (Fargate), com reprodutibilidade e versionamento (Git).
- Operar e evoluir clusters Kubernetes (EKS) e ECS com isolamento multi tenant e multi region (namespaces, políticas de rede, autoscaling e hardening).
- Construir e manter pipelines de CI/CD no Azure DevOps, incluindo agentes self hosted em EC2 e segurança de repositórios.
- Implementar e evoluir observabilidade (Grafana, Prometheus, Loki, Jaeger) com alerting multicanal (Teams, Telegram, Twilio/Lambda) e correlação de métricas, logs e traces.
- Apoiar o deploy e a operação de cargas de inferência de IA (ex.: vLLM em ECS/EC2 com GPU, APIs compatíveis com OpenAI).
- Atuar em segurança e compliance: gestão de identidades (Microsoft Entra ID), segregação de acessos, rotacionamento de secrets, hardening de pipelines, SAST e DAST.
- Definir SLOs, error budgets e runbooks; conduzir post mortems sem culpa e dirigir melhorias a partir de incidentes.
- Documentar decisões arquiteturais (ADRs) e diagramas (C4); aplicar práticas de FinOps.
Requisitos
- Experiência sólida em infraestrutura como código (Terraform) e AWS (ECS Fargate e EKS).
- Kubernetes multi tenant e multi region, autoscaling e hardening.
- Pipelines CI/CD (Azure DevOps) e gestão de agentes self hosted.
- Observabilidade (Grafana, Prometheus, Loki, Jaeger) e alerting multicanal.
- Autenticação e autorização (OAuth), gestão de identidades e de secrets.
- SAST e DAST e práticas de segurança em pipelines.
Diferencial
- Conhecimento em GCP e Aikido.
- Infraestrutura e redes on premises.
- Operação de cargas de inferência de IA em GPU.
