Engenheiro de Dados Machine Learning Sênior
Extractta | São Paulo - SP | Remoto
Como Engenheiro de Dados (Machine Learning) Sênior, você será responsável por projetar, construir e manter pipelines de dados escaláveis, garantindo a qualidade, performance e disponibilidade dos dados que alimentam nossos modelos de Machine Learning. Atuará na orquestração de dados, MLOps (deploy, monitoramento e versionamento de modelos) e na integração entre cientistas de dados e times de negócio. Sua atuação terá impacto direto na entrega eficiente e confiável de modelos preditivos em ambiente produtivo.
Faixa salarial
A combinar
Regime de contratação
CLT, PJ
Benefícios
Home Office, Equipamento,
- Construir, otimizar e manter pipelines de dados escaláveis e confiáveis para ingestão, transformação e disponibilização de dados que suportam modelos de Machine Learning.
- Implementar e gerenciar práticas de MLOps, incluindo automação de deploy, monitoramento, versionamento e re-treinamento de modelos em produção.
- Colaborar com cientistas de dados no desenvolvimento de modelos avançados de ML, garantindo performance, escalabilidade e integridade durante todo o ciclo de vida.
- Integrar dados internos e externos, aplicando técnicas de streaming, APIs, data lakes e event-driven architecture para alimentar os modelos.
- Assegurar governança, segurança, compliance e qualidade dos dados, alinhando soluções aos requisitos regulatórios e às melhores práticas de mercado.
- Fornecer suporte técnico para squads multidisciplinares, traduzindo necessidades de negócio em soluções robustas e escaláveis em ambiente ágil.
- Monitorar e otimizar custos e performance dos ambientes de dados e ML, aplicando práticas de FinOps quando necessário.
- Mentorar profissionais juniores e plenos, promovendo crescimento técnico, disseminando boas práticas de engenharia de dados e fortalecendo a cultura de colaboração.
- Experiência sólida com Python, Scala e Apache Spark, incluindo aplicações no contexto de Big Data e processamento distribuído.
- Domínio na construção, automação e operação de pipelines de Machine Learning, desde a ingestão e tratamento dos dados até o deployment, versionamento e monitoramento dos modelos em produção.
- Familiaridade com bibliotecas e frameworks de ML, como scikit-learn, TensorFlow, PyTorch e XGBoost, atuando em colaboração com cientistas de dados para transformar modelos em soluções escaláveis.
- Conhecimento prático em modelagem estatística, aprendizado supervisionado e não supervisionado, séries temporais e técnicas de otimização, com foco na implementação eficiente em ambientes produtivos.
- Proficiência em SQL e experiência com bancos de dados relacionais e não relacionais (PostgreSQL, MySQL, MongoDB, Cassandra, DynamoDB).
- Vivência em ambientes de deployment em nuvem (AWS, Azure ou GCP), com aplicação de práticas robustas de MLOps, incluindo CI/CD, automação, monitoramento, logging e governança de modelos.
- Capacidade analítica avançada e habilidade para interpretar métricas de performance de modelos, conectando resultados técnicos ao impacto no negócio.
- Sensibilidade ética e responsabilidade quanto a viés, interpretabilidade e transparência dos modelos de IA.
- Formação acadêmica desejável em Ciência da Computação, Engenharia de Software, Ciência de Dados, Estatística, Matemática ou áreas correlatas; pós-graduação ou MBA na área será considerado um diferencial.
- Experiência com plataformas de dados e analytics, preferencialmente Databricks (incluindo Unity Catalog, Delta Lake e MLflow).
- Vivência em integração de dados externos, como web scraping, consumo de APIs públicas/privadas e correlação de dados internos com indicadores macroeconômicos para enriquecer modelos preditivos.
- Conhecimento em visualização de dados e construção de dashboards interativos com ferramentas como Plotly, Tableau, Power BI ou similares, visando apoiar a tomada de decisão baseada em dados.
- Experiência com tecnologias emergentes em IA generativa e utilização de frameworks de GenAI APIs para desenvolvimento de soluções inovadoras.
- Certificações e/ou vivência prática com pipelines de ML, aplicando boas práticas de governança, ética, fairness e interpretabilidade para garantir compliance com normas regulatórias (ex.: LGPD, Open Banking, Open Finance).
A Extractta destaca-se no mercado como uma empresa especializada em tecnologia da informação dedicada a fornecer serviços profissionais e ferramentas avançadas com o objetivo de impulsionar e acelerar o crescimento do negócio de nossos clientes.
Com um forte enfoque em soluções orientada por dados, somos reconhecidos por nossa abordagem Data Driven, que nos permite entregar resultados excepcionais e impulsionar a inovação contínua.
Engenheiro de Dados Machine Learning Sênior
Extractta | São Paulo - SP | Remoto
Descrição da vaga
Como Engenheiro de Dados (Machine Learning) Sênior, você será responsável por projetar, construir e manter pipelines de dados escaláveis, garantindo a qualidade, performance e disponibilidade dos dados que alimentam nossos modelos de Machine Learning. Atuará na orquestração de dados, MLOps (deploy, monitoramento e versionamento de modelos) e na integração entre cientistas de dados e times de negócio. Sua atuação terá impacto direto na entrega eficiente e confiável de modelos preditivos em ambiente produtivo.
Responsabilidades e atribuições
- Construir, otimizar e manter pipelines de dados escaláveis e confiáveis para ingestão, transformação e disponibilização de dados que suportam modelos de Machine Learning.
- Implementar e gerenciar práticas de MLOps, incluindo automação de deploy, monitoramento, versionamento e re-treinamento de modelos em produção.
- Colaborar com cientistas de dados no desenvolvimento de modelos avançados de ML, garantindo performance, escalabilidade e integridade durante todo o ciclo de vida.
- Integrar dados internos e externos, aplicando técnicas de streaming, APIs, data lakes e event-driven architecture para alimentar os modelos.
- Assegurar governança, segurança, compliance e qualidade dos dados, alinhando soluções aos requisitos regulatórios e às melhores práticas de mercado.
- Fornecer suporte técnico para squads multidisciplinares, traduzindo necessidades de negócio em soluções robustas e escaláveis em ambiente ágil.
- Monitorar e otimizar custos e performance dos ambientes de dados e ML, aplicando práticas de FinOps quando necessário.
- Mentorar profissionais juniores e plenos, promovendo crescimento técnico, disseminando boas práticas de engenharia de dados e fortalecendo a cultura de colaboração.
Requisitos e qualificações
- Experiência sólida com Python, Scala e Apache Spark, incluindo aplicações no contexto de Big Data e processamento distribuído.
- Domínio na construção, automação e operação de pipelines de Machine Learning, desde a ingestão e tratamento dos dados até o deployment, versionamento e monitoramento dos modelos em produção.
- Familiaridade com bibliotecas e frameworks de ML, como scikit-learn, TensorFlow, PyTorch e XGBoost, atuando em colaboração com cientistas de dados para transformar modelos em soluções escaláveis.
- Conhecimento prático em modelagem estatística, aprendizado supervisionado e não supervisionado, séries temporais e técnicas de otimização, com foco na implementação eficiente em ambientes produtivos.
- Proficiência em SQL e experiência com bancos de dados relacionais e não relacionais (PostgreSQL, MySQL, MongoDB, Cassandra, DynamoDB).
- Vivência em ambientes de deployment em nuvem (AWS, Azure ou GCP), com aplicação de práticas robustas de MLOps, incluindo CI/CD, automação, monitoramento, logging e governança de modelos.
- Capacidade analítica avançada e habilidade para interpretar métricas de performance de modelos, conectando resultados técnicos ao impacto no negócio.
- Sensibilidade ética e responsabilidade quanto a viés, interpretabilidade e transparência dos modelos de IA.
- Formação acadêmica desejável em Ciência da Computação, Engenharia de Software, Ciência de Dados, Estatística, Matemática ou áreas correlatas; pós-graduação ou MBA na área será considerado um diferencial.
Requisitos desejáveis
- Experiência com plataformas de dados e analytics, preferencialmente Databricks (incluindo Unity Catalog, Delta Lake e MLflow).
- Vivência em integração de dados externos, como web scraping, consumo de APIs públicas/privadas e correlação de dados internos com indicadores macroeconômicos para enriquecer modelos preditivos.
- Conhecimento em visualização de dados e construção de dashboards interativos com ferramentas como Plotly, Tableau, Power BI ou similares, visando apoiar a tomada de decisão baseada em dados.
- Experiência com tecnologias emergentes em IA generativa e utilização de frameworks de GenAI APIs para desenvolvimento de soluções inovadoras.
- Certificações e/ou vivência prática com pipelines de ML, aplicando boas práticas de governança, ética, fairness e interpretabilidade para garantir compliance com normas regulatórias (ex.: LGPD, Open Banking, Open Finance).
Faixa salarial
A combinar
Regime de contratação
CLT, PJ
Benefícios
Home Office, Equipamento,
Sobre a empresa
A Extractta destaca-se no mercado como uma empresa especializada em tecnologia da informação dedicada a fornecer serviços profissionais e ferramentas avançadas com o objetivo de impulsionar e acelerar o crescimento do negócio de nossos clientes.
Com um forte enfoque em soluções orientada por dados, somos reconhecidos por nossa abordagem Data Driven, que nos permite entregar resultados excepcionais e impulsionar a inovação contínua.