[Infra] Especialista I de Infraestrutura de Cloud (AI)

TOTVS | São Paulo - SP | Remoto

Desenhar, automatizar e operar pipelines de ciclo de vida de IA na Cloud TOTVS, assegurando a execução confiável, reprodutível e escalável dos processos de ingestão e transformação de dados, treinamento de modelos, deploy e inferência. Garantir eficiência operacional e alinhamento às melhores práticas de DevOps, MLOps e LLMOps.

Faixa salarial

A combinar

Regime de contratação

CLT

Benefícios

  • Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
  • Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
  • Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
  • Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
  • Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
  • Plano de saúde e odontológico;
  • Vale refeição e / ou alimentação;
  • Vale transporte e fretados em algumas estações do metrô;
  • Licença maternidade e paternidade estendida;
  • Espaço de lactário;
  • Bicicletário;
  • Vestiário;
  • Seguro de vida;
  • Auxílio creche;
  • Previdência privada;
  • Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
  • Gympass.
  • Projetar e implementar pipelines de IA cobrindo ingestão de dados, treinamento, avaliação, deploy e inferência
  • Orquestrar workflows distribuídos, garantindo controle de dependências, execução confiável e recuperação de falhas
  • Automatizar o ciclo de vida de modelos com práticas de CI/CD aplicadas a MLOps e LLMOps
  • Implementar versionamento de dados, modelos e experimentos para rastreabilidade e governança
  • Estruturar e gerenciar pipelines distintos para treinamento, inferência e avaliação contínua
  • Integrar pipelines a ambientes Kubernetes, plataformas de inferência e serviços externos
  • Garantir reprodutibilidade dos processos de treinamento e deploy
  • Implementar gatilhos orientados a eventos (ex.: chegada de novos dados ou atualizações de modelos)
  • Monitorar a execução dos pipelines, identificando falhas, gargalos e oportunidades de otimização
  • Incorporar práticas de observabilidade (logs, métricas e tracing) aos pipelines
  • Apoiar a construção de pipelines para LLMs, incluindo RAG, agentes e integração com ferramentas e APIs
  • Colaborar com times de dados e produto para operacionalizar modelos em produção
  • Aplicar práticas de DevSecOps ao longo de todo o ciclo de vida dos pipelines
  • Documentar fluxos, padrões e boas práticas de orquestração
  • Formação Acadêmica
    • Graduação em Tecnologia da Informação, Ciência da Computação, Engenharia da Computação, Sistemas de Informação ou áreas correlatas
    • Pós-graduação ou especialização em Engenharia de Dados, Inteligência Artificial ou Machine Learning, Cloud Computing, Sistemas Distribuídos, DevOps ou Engenharia de Plataforma (desejável)
    Idiomas
    • Inglês avançado para leitura técnica, escrita e conversação
    • Capacidade de participar de discussões técnicas e estratégicas em inglês
    Certificações Desejáveis
    • Kubernetes: CKA, CKAD ou CKS
    • NVIDIA Certified – AI Infrastructure (NCP-AI)
    • Linux: LPIC-3, RHCE ou equivalente
    • DevOps em Cloud Providers:
      • AWS Certified DevOps Engineer – Professional
      • Google Cloud Professional Cloud DevOps Engineer
      • Oracle Cloud Infrastructure DevOps Professional
      • AZ-400 – Azure DevOps Engineer Expert
    • Docker Certified Associate (DCA)
    • GitHub Certified: GitHub Actions
    • Certificações em Segurança, DevSecOps ou Arquitetura (ex.: CISSP, CCSK, TOGAF) – diferenciais
    • Cloud (AWS, Azure, GCP e OCI):
      • AWS Certified Solutions Architect
      • GCP Professional Cloud Architect
      • Microsoft Azure Solutions Architect Expert (AZ-305)
      • Oracle Cloud Infrastructure Architect Professional
    Conhecimentos específicos / Habilidades:
    ● Domínio de orquestração de workflows e pipelines distribuídos
    ● Conhecimento em CI/CD aplicado a modelos de IA e Sistemas Distribuídos
    ● Experiência com versionamento (Git, MLflow ou similares)
    ● Conhecimento em containers e Kubernetes
    ● Integração com pipelines de dados (batch e streaming)
    ● Noções de engenharia de dados (ingestão, transformação, validação)
    ● Conhecimento em observabilidade aplicada a pipelines
    ● Familiaridade com pipelines de LLMs (RAG, agentes, prompt pipelines)
    ● Capacidade de estruturar fluxos reprodutíveis e auditáveis
    ● Pensamento orientado a automação, eficiência e escala
    ● Experiência com Infraestrutura como Código (IaC) e automação.
    ● Conhecimento aplicado em práticas DevSecOps e SRE.
    ● Capacidade analítica para diagnóstico e resolução de problemas complexos.
    ● Comunicação clara, organizada e orientada a impacto técnico e operacional.
    ● Entendimento de contexto de negócio para embasar decisões técnicas.

    ● Pensamento sistêmico
    ● Mentalidade de automação
    ● Raciocínio analítico
    ● Colaboração multidisciplinar
    ● Comunicação clara e objetiva
    ● Orientação a resultado
    ● Adaptabilidade e aprendizado contínuo
    ● Senso de responsabilidade (ownership)
    ● Organização e padronização
    ● Tomada de decisão baseada em trade-offs
    Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance. 
    Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!
    Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes. 
    Vem com a gente inovar e construir o futuro da tecnologia.
    #VemPraTOTVS #SomosTOTVS
    Ver página da empresa

    [Infra] Especialista I de Infraestrutura de Cloud (AI)

    TOTVS | São Paulo - SP | Remoto

    Descrição da vaga

    Desenhar, automatizar e operar pipelines de ciclo de vida de IA na Cloud TOTVS, assegurando a execução confiável, reprodutível e escalável dos processos de ingestão e transformação de dados, treinamento de modelos, deploy e inferência. Garantir eficiência operacional e alinhamento às melhores práticas de DevOps, MLOps e LLMOps.

    Responsabilidades e atribuições

  • Projetar e implementar pipelines de IA cobrindo ingestão de dados, treinamento, avaliação, deploy e inferência
  • Orquestrar workflows distribuídos, garantindo controle de dependências, execução confiável e recuperação de falhas
  • Automatizar o ciclo de vida de modelos com práticas de CI/CD aplicadas a MLOps e LLMOps
  • Implementar versionamento de dados, modelos e experimentos para rastreabilidade e governança
  • Estruturar e gerenciar pipelines distintos para treinamento, inferência e avaliação contínua
  • Integrar pipelines a ambientes Kubernetes, plataformas de inferência e serviços externos
  • Garantir reprodutibilidade dos processos de treinamento e deploy
  • Implementar gatilhos orientados a eventos (ex.: chegada de novos dados ou atualizações de modelos)
  • Monitorar a execução dos pipelines, identificando falhas, gargalos e oportunidades de otimização
  • Incorporar práticas de observabilidade (logs, métricas e tracing) aos pipelines
  • Apoiar a construção de pipelines para LLMs, incluindo RAG, agentes e integração com ferramentas e APIs
  • Colaborar com times de dados e produto para operacionalizar modelos em produção
  • Aplicar práticas de DevSecOps ao longo de todo o ciclo de vida dos pipelines
  • Documentar fluxos, padrões e boas práticas de orquestração
  • Requisitos e qualificações

    Formação Acadêmica
    • Graduação em Tecnologia da Informação, Ciência da Computação, Engenharia da Computação, Sistemas de Informação ou áreas correlatas
    • Pós-graduação ou especialização em Engenharia de Dados, Inteligência Artificial ou Machine Learning, Cloud Computing, Sistemas Distribuídos, DevOps ou Engenharia de Plataforma (desejável)
    Idiomas
    • Inglês avançado para leitura técnica, escrita e conversação
    • Capacidade de participar de discussões técnicas e estratégicas em inglês
    Certificações Desejáveis
    • Kubernetes: CKA, CKAD ou CKS
    • NVIDIA Certified – AI Infrastructure (NCP-AI)
    • Linux: LPIC-3, RHCE ou equivalente
    • DevOps em Cloud Providers:
      • AWS Certified DevOps Engineer – Professional
      • Google Cloud Professional Cloud DevOps Engineer
      • Oracle Cloud Infrastructure DevOps Professional
      • AZ-400 – Azure DevOps Engineer Expert
    • Docker Certified Associate (DCA)
    • GitHub Certified: GitHub Actions
    • Certificações em Segurança, DevSecOps ou Arquitetura (ex.: CISSP, CCSK, TOGAF) – diferenciais
    • Cloud (AWS, Azure, GCP e OCI):
      • AWS Certified Solutions Architect
      • GCP Professional Cloud Architect
      • Microsoft Azure Solutions Architect Expert (AZ-305)
      • Oracle Cloud Infrastructure Architect Professional

    Requisitos desejáveis

    Conhecimentos específicos / Habilidades:
    ● Domínio de orquestração de workflows e pipelines distribuídos
    ● Conhecimento em CI/CD aplicado a modelos de IA e Sistemas Distribuídos
    ● Experiência com versionamento (Git, MLflow ou similares)
    ● Conhecimento em containers e Kubernetes
    ● Integração com pipelines de dados (batch e streaming)
    ● Noções de engenharia de dados (ingestão, transformação, validação)
    ● Conhecimento em observabilidade aplicada a pipelines
    ● Familiaridade com pipelines de LLMs (RAG, agentes, prompt pipelines)
    ● Capacidade de estruturar fluxos reprodutíveis e auditáveis
    ● Pensamento orientado a automação, eficiência e escala
    ● Experiência com Infraestrutura como Código (IaC) e automação.
    ● Conhecimento aplicado em práticas DevSecOps e SRE.
    ● Capacidade analítica para diagnóstico e resolução de problemas complexos.
    ● Comunicação clara, organizada e orientada a impacto técnico e operacional.
    ● Entendimento de contexto de negócio para embasar decisões técnicas.

    ● Pensamento sistêmico
    ● Mentalidade de automação
    ● Raciocínio analítico
    ● Colaboração multidisciplinar
    ● Comunicação clara e objetiva
    ● Orientação a resultado
    ● Adaptabilidade e aprendizado contínuo
    ● Senso de responsabilidade (ownership)
    ● Organização e padronização
    ● Tomada de decisão baseada em trade-offs
    Enviar candidatura
    Enviar candidatura

    Faixa salarial

    A combinar

    Regime de contratação

    CLT

    Benefícios

    • Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
    • Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
    • Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
    • Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
    • Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
    • Plano de saúde e odontológico;
    • Vale refeição e / ou alimentação;
    • Vale transporte e fretados em algumas estações do metrô;
    • Licença maternidade e paternidade estendida;
    • Espaço de lactário;
    • Bicicletário;
    • Vestiário;
    • Seguro de vida;
    • Auxílio creche;
    • Previdência privada;
    • Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
    • Gympass.

    Sobre a empresa

    Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance. 
    Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!
    Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes. 
    Vem com a gente inovar e construir o futuro da tecnologia.
    #VemPraTOTVS #SomosTOTVS
    Ver página da empresa