Sobre a vaga
Responsável por construir e operar a espinha dorsal de dados de um produto digital de saúde de alto impacto, onde a IA é parte central da solução. Com perfil hands on e forte senioridade técnica, projeta pipelines robustos, garante a qualidade e a governança dos dados que alimentam modelos inteligentes e colabora de perto com os times de engenharia e IA, seguindo os mais altos padrões de segurança e conformidade do setor de saúde.
Neste papel, esperamos alguém que combina excelência na execução com capacidade de influenciar decisões técnicas além do seu time imediato — alguém que já construiu soluções de dados robustas em escala real e que consegue, de forma autônoma, identificar problemas estruturais, propor caminhos e elevar o nível técnico do contexto em que está inserido.
Atuação prática
- Projetar, construir e manter pipelines de dados robustos (ETL/ELT) que alimentam modelos clássicos de ML e sistemas RAG e LLMs em produção.
- Garantir qualidade, governança e rastreabilidade de dados com data contracts, catalogação e versionamento de datasets e artefatos.
- Estruturar e operar plataformas de MLOps: feature stores, model registry, experiment tracking, serving e monitoramento de performance.
- Implementar retreinamento contínuo, drift detection e critérios de promoção e rollback de modelos por métricas técnicas e de negócio.
- Integrar pipelines de dados e ML em fluxos CI/CD, com reprodutibilidade e rastreabilidade de experimentos.
- Estabelecer observabilidade de dados: tracing, logs, métricas de qualidade e alertas de degradação.
- Apoiar o time de IA na construção de pipelines RAG: ingestão, chunking, indexação, embeddings e buscas híbridas.
- Garantir conformidade com LGPD e normas de saúde, com mascaramento de dados, gestão de PII e segurança by design.
- Identificar gargalos e problemas estruturais na stack de dados, propondo e liderando iniciativas de melhoria com impacto além do escopo imediato do seu time.
- Atuar como referência técnica para engenheiros ao redor, contribuindo para decisões de implementação, revisões de arquitetura e disseminação de boas práticas.
Requisitos
- Experiência sólida como Data Engineer em produtos digitais de alta escala.
- Domínio de Python para engenharia de dados e pipelines de ML.
- Cloud (Azure, AWS ou GCP) e orquestração de pipelines (Airflow, Prefect ou equivalentes).
- Plataformas de MLOps (MLflow, Databricks, SageMaker ou similares).
- Bancos SQL, NoSQL e vetoriais e mensageria/eventos (Kafka, RabbitMQ ou equivalentes).
- Familiaridade com LLMs em produção e sistemas RAG.
- Segurança de dados, mascaramento de PII e conformidade com LGPD e normas de saúde.
- Capacidade de atuar com autonomia técnica plena, tomando decisões de implementação e arquitetura dentro do seu domínio sem necessidade de direcionamento.
- Histórico de entregas de alto impacto em ambientes de alta escala, com evidências de influência técnica que ultrapassaram o escopo do seu time direto.
Diferencial
- Tracing e avaliação de pipelines RAG (Langfuse, Ragas, DeepEval ou equivalentes).
- Busca híbrida (BM25 e densa), re-rankers e embeddings proprietários.
- Experiência prévia em healthtech, fintech ou setores de alta regulação.
- Contribuições open source ou comunidades de dados e IA.
- Vivência em contextos onde atuou como ponte técnica entre times, desbloqueando problemas de alta complexidade ou ambiguidade.
