Será o arquiteto da inteligência de dados na nuvem. Além de gerar insights, Será responsável por sustentar e evoluir nosso Data Lake na AWS, garantindo que o fluxo de dados — desde a origem até o dashboard — seja automatizado, escalável e seguro.
Responsabilidades:
Orquestração e Processamento: Criar e monitorar jobs de ETL utilizando AWS Glue e funções Lambda para processamento orientado a eventos.
Infraestrutura como Código (IaC): Garantir que a infraestrutura de dados seja replicável e organizada utilizando Terraform.
Arquitetura de Data Lake: Gerenciar o armazenamento no S3, definindo as camadas de dados (Raw, Bronze, Silver, Gold) e políticas de ciclo de vida.
Consulta e Performance: Otimizar o consumo de dados via Athena (particionamento e formatos de arquivo como Parquet) e realizar integrações/consultas no banco de dados Aurora.
Manutenção de Pipelines: Garantir que o fluxo de dados entre o Aurora e o Data Lake seja resiliente e eficiente.
Requisitos:
Ecossistema AWS: Experiência prática com S3, Glue, Lambda e Athena.
Bancos de Dados: Domínio de SQL para Amazon Aurora (PostgreSQL/MySQL).
DevOps para Dados: Experiência com Terraform para provisionamento de recursos de dados.
Linguagens: Python avançado (essencial para Lambdas e Glue scripts).
Modelagem de Dados: Conhecimento em arquiteturas de Data Lake e Data Warehousing.
Localidade: São Paulo