[Infra] Especialista II de Infraestrutura de Cloud (IA)

TOTVS | São Paulo - SP | Remoto

Arquitetar, evoluir e operar a infraestrutura da plataforma de IA da Cloud TOTVS de forma segura, escalável e sustentável, garantindo previsibilidade operacional, baixo acoplamento tecnológico e eficiência financeira, suportando os serviços de inferência e suas dependências ao longo do crescimento dos produtos de IA da companhia.

Faixa salarial

A combinar

Regime de contratação

CLT

Benefícios

  • Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
  • Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
  • Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
  • Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
  • Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
  • Plano de saúde e odontológico;
  • Vale refeição e / ou alimentação;
  • Vale transporte e fretados em algumas estações do metrô;
  • Licença maternidade e paternidade estendida;
  • Espaço de lactário;
  • Bicicletário;
  • Vestiário;
  • Seguro de vida;
  • Auxílio creche;
  • Previdência privada;
  • Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
  • Gympass.
  • Arquitetar e operar infraestrutura de inferência e suporte a treinamento e fine-tuning de modelos (GPU-first), em ambientes on-premises, cloud e serviços externos.
  • Definir arquitetura física e lógica (rede, isolamento, alta disponibilidade, capacidade e resiliência).
  • Planejar e executar a implantação da plataforma de IA, garantindo compatibilidade entre hardware, SO, drivers, CUDA, Kubernetes e stacks de inferência.
  • Operar a plataforma de inferência em produção, assegurando disponibilidade, desempenho e continuidade.
  • Atuar na resolução de incidentes complexos (GPUs, Kubernetes, redes, storage e workloads de IA).
  • Aplicar práticas de SRE (SLOs, SLIs, error budgets e gestão de incidentes).
  • Operar e evoluir stacks de inferência (comerciais e open source), garantindo portabilidade e mitigação de lock-in.
  • Definir e padronizar serviços de inferência (ex.: Triton, NIM).
  • Arquitetar e operar clusters Kubernetes para IA (multi-tenant, scheduling de GPU, filas, concorrência, backpressure e escala).
  • Implementar observabilidade full stack (infraestrutura, GPUs, Kubernetes e serviços de inferência).
  • Garantir visibilidade de consumo de recursos, capacidade, riscos operacionais e impacto financeiro.
  • Apoiar capacity planning e planejamento orçamentário.
  • Integrar práticas de DevSecOps ao ciclo completo da plataforma.
  • Garantir conformidade com segurança, auditoria, acessos e segregação de ambientes.
  • Disseminar padrões técnicos, boas práticas e conhecimento (documentação e mentoria).
  • Apoiar fóruns técnicos e decisões estratégicas relacionadas à infraestrutura de IA.
  • Experiência mínima de 5 anos em infraestrutura de TI, cloud ou sistemas distribuídos em ambientes críticos.
  • Experiência em arquitetura e operação de sistemas distribuídos (preferencialmente com dados, analytics ou IA).
  • Vivência em equipes multidisciplinares com interação com produto, dados, segurança e arquitetura.
  • Graduação em TI, Engenharia, Ciência da Computação ou áreas correlatas.
  • Inglês avançado (leitura, escrita e conversação técnica).
  • Domínio de sistemas distribuídos (concorrência, balanceamento, filas, isolamento e backpressure).
  • Experiência sólida com Kubernetes (EKS, GKE, AKS, scheduling avançado, multi-tenant).
  • Conhecimento avançado em ambientes de missão crítica (alta disponibilidade e resiliência).
  • Domínio de redes (TCP/IP, DNS, load balancers, firewalls, SDN).
  • Experiência com storage para workloads intensivos em I/O e larga escala.
  • Experiência com cloud pública (AWS, Azure e/ou GCP).
  • Domínio de observabilidade (métricas, logs e traces).
  • Experiência com Infraestrutura como Código (IaC) e automação.
  • Conhecimento em práticas DevSecOps e SRE.
  • Forte capacidade analítica para resolução de problemas complexos.
  • Comunicação clara e orientada a impacto técnico e operacional.
  • Entendimento de contexto de negócio para embasar decisões técnicas.
    • Pós-graduação ou MBA em áreas como Arquitetura de Software, Cloud, Sistemas Distribuídos ou Segurança.
    • Certificações Kubernetes (CKA, CKAD ou CKS).
    • Certificações Linux (LPIC-3, RHCE ou equivalente).
    • Certificações em cloud (AWS, Azure ou GCP).
    • Certificações NVIDIA (NCP-AI ou NCA-AI).
    • Certificações em Segurança, DevSecOps ou Arquitetura (ex.: CISSP, CCSK, TOGAF). 
    Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance. 
    Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!
    Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes. 
    Vem com a gente inovar e construir o futuro da tecnologia.
    #VemPraTOTVS #SomosTOTVS
    Ver página da empresa

    [Infra] Especialista II de Infraestrutura de Cloud (IA)

    TOTVS | São Paulo - SP | Remoto

    Descrição da vaga

    Arquitetar, evoluir e operar a infraestrutura da plataforma de IA da Cloud TOTVS de forma segura, escalável e sustentável, garantindo previsibilidade operacional, baixo acoplamento tecnológico e eficiência financeira, suportando os serviços de inferência e suas dependências ao longo do crescimento dos produtos de IA da companhia.

    Responsabilidades e atribuições

  • Arquitetar e operar infraestrutura de inferência e suporte a treinamento e fine-tuning de modelos (GPU-first), em ambientes on-premises, cloud e serviços externos.
  • Definir arquitetura física e lógica (rede, isolamento, alta disponibilidade, capacidade e resiliência).
  • Planejar e executar a implantação da plataforma de IA, garantindo compatibilidade entre hardware, SO, drivers, CUDA, Kubernetes e stacks de inferência.
  • Operar a plataforma de inferência em produção, assegurando disponibilidade, desempenho e continuidade.
  • Atuar na resolução de incidentes complexos (GPUs, Kubernetes, redes, storage e workloads de IA).
  • Aplicar práticas de SRE (SLOs, SLIs, error budgets e gestão de incidentes).
  • Operar e evoluir stacks de inferência (comerciais e open source), garantindo portabilidade e mitigação de lock-in.
  • Definir e padronizar serviços de inferência (ex.: Triton, NIM).
  • Arquitetar e operar clusters Kubernetes para IA (multi-tenant, scheduling de GPU, filas, concorrência, backpressure e escala).
  • Implementar observabilidade full stack (infraestrutura, GPUs, Kubernetes e serviços de inferência).
  • Garantir visibilidade de consumo de recursos, capacidade, riscos operacionais e impacto financeiro.
  • Apoiar capacity planning e planejamento orçamentário.
  • Integrar práticas de DevSecOps ao ciclo completo da plataforma.
  • Garantir conformidade com segurança, auditoria, acessos e segregação de ambientes.
  • Disseminar padrões técnicos, boas práticas e conhecimento (documentação e mentoria).
  • Apoiar fóruns técnicos e decisões estratégicas relacionadas à infraestrutura de IA.
  • Requisitos e qualificações

  • Experiência mínima de 5 anos em infraestrutura de TI, cloud ou sistemas distribuídos em ambientes críticos.
  • Experiência em arquitetura e operação de sistemas distribuídos (preferencialmente com dados, analytics ou IA).
  • Vivência em equipes multidisciplinares com interação com produto, dados, segurança e arquitetura.
  • Graduação em TI, Engenharia, Ciência da Computação ou áreas correlatas.
  • Inglês avançado (leitura, escrita e conversação técnica).
  • Domínio de sistemas distribuídos (concorrência, balanceamento, filas, isolamento e backpressure).
  • Experiência sólida com Kubernetes (EKS, GKE, AKS, scheduling avançado, multi-tenant).
  • Conhecimento avançado em ambientes de missão crítica (alta disponibilidade e resiliência).
  • Domínio de redes (TCP/IP, DNS, load balancers, firewalls, SDN).
  • Experiência com storage para workloads intensivos em I/O e larga escala.
  • Experiência com cloud pública (AWS, Azure e/ou GCP).
  • Domínio de observabilidade (métricas, logs e traces).
  • Experiência com Infraestrutura como Código (IaC) e automação.
  • Conhecimento em práticas DevSecOps e SRE.
  • Forte capacidade analítica para resolução de problemas complexos.
  • Comunicação clara e orientada a impacto técnico e operacional.
  • Entendimento de contexto de negócio para embasar decisões técnicas.
  • Requisitos desejáveis

    • Pós-graduação ou MBA em áreas como Arquitetura de Software, Cloud, Sistemas Distribuídos ou Segurança.
    • Certificações Kubernetes (CKA, CKAD ou CKS).
    • Certificações Linux (LPIC-3, RHCE ou equivalente).
    • Certificações em cloud (AWS, Azure ou GCP).
    • Certificações NVIDIA (NCP-AI ou NCA-AI).
    • Certificações em Segurança, DevSecOps ou Arquitetura (ex.: CISSP, CCSK, TOGAF). 
    Enviar candidatura
    Enviar candidatura

    Faixa salarial

    A combinar

    Regime de contratação

    CLT

    Benefícios

    • Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
    • Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
    • Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
    • Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
    • Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
    • Plano de saúde e odontológico;
    • Vale refeição e / ou alimentação;
    • Vale transporte e fretados em algumas estações do metrô;
    • Licença maternidade e paternidade estendida;
    • Espaço de lactário;
    • Bicicletário;
    • Vestiário;
    • Seguro de vida;
    • Auxílio creche;
    • Previdência privada;
    • Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
    • Gympass.

    Sobre a empresa

    Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance. 
    Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!
    Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes. 
    Vem com a gente inovar e construir o futuro da tecnologia.
    #VemPraTOTVS #SomosTOTVS
    Ver página da empresa