Sobre a Winnin
O Winnin é uma plataforma de inteligência cultural movida a IA. Coletamos e processamos dados das maiores plataformas de vídeo do mundo — YouTube, TikTok, Instagram, Facebook e Twitch — e transformamos esse volume em insights estratégicos que ajudam marcas globais a criar conteúdo com mais inteligência e relevância.
Aqui, engenharia de dados não é infraestrutura de suporte. É o que torna o produto possível.
O desafio
Nossa engenharia de dados opera em alta escala e alta velocidade: APIs com cotas rigorosas, plataformas que mudam sem avisar, scrapers que precisam ser robustos o suficiente para sobreviver a qualquer atualização e pipelines que não podem parar.
Se você tem maturidade técnica para arquitetar soluções resilientes e disposição para trabalhar próximo dos times de Produto e Data Science — propondo, questionando e evoluindo a arquitetura continuamente — você vai se sentir em casa aqui.
O que você vai fazer
- Capturar dados de APIs das principais plataformas de vídeo, gerenciando cotas, autenticações e atualizações de contrato
- Desenvolver e manter crawlers e scrapers com estratégias robustas de resiliência e bypass
- Processar grandes volumes de dados com eficiência, garantindo atualização em tempo real e consolidação histórica
- Evoluir a arquitetura do Data Lake, incluindo migração de workspaces e adoção de novas ferramentas de orquestração
- Criar e manter métricas proprietárias em colaboração com os times de Data Science e Produto
- Analisar e propor melhorias em pipelines legados com foco em custo, performance e confiabilidade
- Trabalhar em colaboração próxima com DevOps para deploy, monitoramento e segurança de infraestrutura
- Mentorear e coordenar membros mais juniores do squad
O que esperamos de você
- Graduação em Ciência da Computação, Engenharia, Estatística ou área correlata
- Python e SQL avançados
- Sólida experiência em Engenharia de Dados
- Experiência sólida com Spark / PySpark
- Experiência com orquestração de pipelines: Prefect, Airflow ou similares
- Experiência com coleta de dados via APIs e web scraping em escala (Playwright, Selenium ou similares)
- Conhecimento de GCP e/ou AWS
- Capacidade de arquitetar, construir e manter Data Lakes e pipelines ETL/ELT de alta escala
- Databricks e Docker no dia a dia
- Proatividade para avançar em cenários de ambiguidade técnica
Diferenciais
- DBT para transformação e documentação de dados
- Temporal IO para orquestração
- Bancos vetoriais (Qdrant, Pinecone ou similares) e não relacionais (MongoDB)
- Contribuições em projetos open source relacionados a pipelines ou infraestrutura analítica
- Pós-graduação, mestrado ou doutorado em área correlata
Hard Skills esperadas
Python avançado · SQL avançado · Spark/PySpark · Prefect/Airflow/Temporal IO · Databricks · GCP (Dataproc, BigQuery, GCS, Dataflow) e/ou AWS (Glue, Redshift, RDS, Lambda) · Web scraping (Playwright, Selenium) · Docker · Git · DBT (diferencial)
Soft skills que fazem diferença aqui
- Decomposição estruturada de problemas complexos
- Aprendizado contínuo — inclusive de tecnologias que ainda não existiam no ano passado
- Senso crítico para questionar e defender escolhas técnicas com clareza
- Colaboração ativa: pair programming, code review, orientação a juniores
- Comunicação para públicos técnicos e não técnicos
- Proatividade em cenários de ambiguidade
Pronto(a) para fazer parte?
Candidate-se e conte pra gente qual foi o pipeline mais difícil que você já colocou em produção. 🟣
#DataEngineering #DataEngineer #DataPipeline #ETL #BigData #Spark #Python
#Vaga #VagaRemota #HomeOffice #OpenToWork #TechJobs #Emprego