Senior Data Engineer

Sobre a vaga

Responsável por construir e operar a espinha dorsal de dados de um produto digital de saúde de alto impacto, onde a IA é parte central da solução. Com perfil hands on e forte senioridade técnica, projeta pipelines robustos, garante a qualidade e a governança dos dados que alimentam modelos inteligentes e colabora de perto com os times de engenharia e IA, seguindo os mais altos padrões de segurança e conformidade do setor de saúde.

Neste papel, esperamos alguém que executa com excelência dentro de um contexto bem definido — capaz de receber uma demanda, entender o problema e entregar soluções robustas de forma autônoma, sem precisar de direcionamento constante. Você atua com profundidade técnica no seu produto e time, contribuindo para decisões de implementação e boas práticas no dia a dia.

Atuação prática

Projetar, construir e manter pipelines de dados robustos (ETL/ELT) que alimentam modelos clássicos de ML e sistemas RAG e LLMs em produção.
Garantir qualidade, governança e rastreabilidade de dados com data contracts, catalogação e versionamento de datasets e artefatos.
Estruturar e operar plataformas de MLOps: feature stores, model registry, experiment tracking, serving e monitoramento de performance.
Implementar retreinamento contínuo, drift detection e critérios de promoção e rollback de modelos por métricas técnicas e de negócio.
Integrar pipelines de dados e ML em fluxos CI/CD, com reprodutibilidade e rastreabilidade de experimentos.
Estabelecer observabilidade de dados: tracing, logs, métricas de qualidade e alertas de degradação.
Apoiar o time de IA na construção de pipelines RAG: ingestão, chunking, indexação, embeddings e buscas híbridas.
Garantir conformidade com LGPD e normas de saúde, com mascaramento de dados, gestão de PII e segurança by design.
Executar com autonomia dentro do escopo do seu time e produto, entregando soluções de qualidade a partir de demandas estruturadas.
Contribuir para decisões técnicas de implementação, identificando trade-offs e propondo melhorias incrementais na stack de dados.

Requisitos

Experiência sólida como Data Engineer em produtos digitais de alta escala.
Domínio de Python para engenharia de dados e pipelines de ML.
Cloud (Azure, AWS ou GCP) e orquestração de pipelines (Airflow, Prefect ou equivalentes).
Plataformas de MLOps (MLflow, Databricks, SageMaker ou similares).
Bancos SQL, NoSQL e vetoriais e mensageria/eventos (Kafka, RabbitMQ ou equivalentes).
Familiaridade com LLMs em produção e sistemas RAG.
Segurança de dados, mascaramento de PII e conformidade com LGPD e normas de saúde.
Capacidade de atuar com autonomia técnica dentro de um produto ou domínio de dados definido, sem necessidade de acompanhamento próximo no dia a dia.
Histórico de entregas consistentes em ambientes de alta escala, com foco em qualidade de execução e boas práticas de engenharia.

Diferencial

Tracing e avaliação de pipelines RAG (Langfuse, Ragas, DeepEval ou equivalentes).
Busca híbrida (BM25 e densa), re-rankers e embeddings proprietários.
Experiência prévia em healthtech, fintech ou setores de alta regulação.
Contribuições open source ou comunidades de dados e IA.
Vivência em times com arquiteturas já estabelecidas, onde soube evoluir e operar a plataforma com responsabilidade e profundidade técnica.

Sobre a vaga

Atuação prática

Requisitos

Diferencial

Interessou por esta vaga?