Especialista II De Infraestrutura De Cloud

TOTVS | São Paulo - SP | Remoto

Arquitetar e evoluir a infraestrutura da plataforma de IA da Cloud TOTVS de forma segura, escalável e sustentável, assegurando previsibilidade operacional, eficiência financeira e baixo acoplamento tecnológico, de modo a sustentar o crescimento contínuo dos serviços de inferência e dos produtos de IA da companhia.

Faixa salarial

A combinar

Regime de contratação

CLT

Benefícios

  • Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
  • Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
  • Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
  • Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
  • Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
  • Plano de saúde e odontológico;
  • Vale refeição e / ou alimentação;
  • Vale transporte e fretados em algumas estações do metrô;
  • Licença maternidade e paternidade estendida;
  • Espaço de lactário;
  • Bicicletário;
  • Vestiário;
  • Seguro de vida;
  • Auxílio creche;
  • Previdência privada;
  • Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
  • Gympass.
  • Arquitetar e evoluir a infraestrutura de inferência e suporte a treinamento e fine-tuning de modelos, com abordagem GPU-first, considerando ambientes on-premises, cloud e serviços externos quando aplicável.
  • Definir a arquitetura do ambiente, incluindo topologias de rede, isolamento de workloads, alta disponibilidade, capacidade e resiliência.
  • Planejar e executar a implantação da plataforma de IA, garantindo compatibilidade entre hardware, sistema operacional, drivers, stacks CUDA (ou equivalentes), Kubernetes e plataformas de inferência.
  • Operar e sustentar a plataforma de inferência em produção, assegurando disponibilidade, desempenho e continuidade operacional (em escopo de arquitetura estratégica).
  • Apoiar o planejamento e a execução de ações de melhoria decorrentes de incidentes complexos envolvendo GPUs, Kubernetes, redes, storage e workloads de inferência.
  • Aplicar práticas de SRE, incluindo definição e acompanhamento de SLOs, SLIs, error budgets e gestão de incidentes.
  • Operar e evoluir stacks de inferência comerciais e open source (ex.: NVIDIA AI Enterprise, Triton, vLLM, KServe), garantindo portabilidade e mitigação de lock-in.
  • Definir e padronizar o uso de serviços de inferência quando aplicável (ex.: Triton, NIM).
  • Arquitetar e operar clusters Kubernetes para workloads de IA, com foco em isolamento multi-tenant, GPU scheduling, concorrência, filas, backpressure e escalabilidade.
  • Implementar observabilidade full stack, abrangendo infraestrutura, GPUs, Kubernetes e serviços de inferência.
  • Garantir visibilidade sobre consumo de recursos, capacidade, riscos operacionais e impacto financeiro das cargas de IA.
  • Apoiar processos de capacity planning e planejamento orçamentário, avaliando trade-offs entre soluções comerciais e open source.
  • Integrar práticas de DevSecOps desde a concepção até a operação da plataforma.
  • Garantir conformidade com políticas de segurança, auditoria, controle de acesso e segregação de ambientes.
  • Disseminar padrões técnicos, boas práticas e conhecimento por meio de documentação estruturada e mentorias técnicas.
  • Apoiar tecnicamente fóruns internos e processos decisórios relacionados à infraestrutura de IA.
  • Experiência 
    • Experiência mínima de 5 anos em infraestrutura de TI, cloud ou plataformas distribuídas, com atuação em ambientes críticos.
    • Experiência comprovada em arquitetura e operação de sistemas distribuídos, preferencialmente com workloads de dados, analytics ou IA.
    • Vivência mínima de 3 anos em equipes multidisciplinares, interagindo com times de produto, dados, segurança e arquitetura.
    Formação Acadêmica
    • Graduação em Tecnologia da Informação, Engenharia, Ciência da Computação ou áreas correlatas.
    • Pós-graduação ou MBA em Arquitetura de Software, Cloud Computing, Sistemas Distribuídos, Segurança da Informação ou áreas afins (desejável).
    Idiomas
    • Inglês avançado para leitura técnica, escrita e conversação, com capacidade de participar de discussões técnicas e estratégicas.
    Certificações (diferenciais)
    • Certificações relacionadas a Kubernetes, Cloud Pública e Infraestrutura como Código (IaC).
    Conhecimentos Específicos / Habilidades
    • Domínio de sistemas distribuídos, incluindo concorrência, balanceamento de carga, isolamento de workloads, filas e backpressure.
    • Experiência sólida em Kubernetes, incluindo ambientes gerenciados (EKS, GKE, AKS), scheduling avançado e isolamento multi-tenant.
    • Conhecimento avançado em ambientes de missão crítica, com foco em alta disponibilidade, resiliência e continuidade operacional.
    • Domínio de arquitetura de redes aplicadas a cloud e Kubernetes (TCP/IP, DNS, Load Balancers, Firewalls, SDN).
    • Domínio na aplicação de soluções de storage para workloads I/O intensive em Kubernetes e ambientes de grande escala.
    • Experiência com serviços de nuvem pública (AWS, Azure e/ou GCP) e entendimento do modelo de responsabilidade compartilhada.
    • Domínio de observabilidade (métricas, logs e traces) aplicada a infraestrutura e plataformas de IA.
    • Experiência com Infraestrutura como Código (IaC) e automação.
    • Conhecimento aplicado em práticas de DevSecOps e SRE.
  • Forte senso de ownership sobre a plataforma e seus resultados.
  • Capacidade de atuar na resolução de problemas complexos de infraestrutura e sistemas distribuídos.
  • Comunicação clara e estruturada com públicos técnicos, com habilidade de traduzir impactos técnicos em riscos operacionais e financeiros.
  • Tomada de decisão orientada por trade-offs técnicos, operacionais e de custo.
  • Mentalidade voltada à confiabilidade, melhoria contínua e visão de plataforma.
  • Alta capacidade analítica para diagnóstico e resolução de problemas complexos.
  • Entendimento do contexto de negócio para embasar decisões técnicas.
  • Postura proativa e orientada a resultados.
  • Perfil colaborativo, com facilidade de atuação em ambientes multidisciplinares.
  • Atuará na área de Infra Core, integrante da estrutura de Infraestrutura dentro do ecossistema de Cloud.
  • A área possui caráter estruturante, com tomada de decisões que impactam a companhia como um todo, especialmente na definição da arquitetura estratégica de nuvem.
  • O profissional atuará como Tech Lead, com autonomia para conduzir iniciativas de forma independente e responsabilidade por apoiar e desenvolver outros profissionais, incluindo especialistas.
  • Deverá demonstrar forte capacidade de aprender, desaprender e ensinar, acompanhando a evolução contínua do ambiente de Cloud, com foco estratégico atual em IA e arquitetura distribuída.
  • Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance. 
    Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!
    Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes. 
    Vem com a gente inovar e construir o futuro da tecnologia.
    #VemPraTOTVS #SomosTOTVS
    Ver página da empresa

    Especialista II De Infraestrutura De Cloud

    TOTVS | São Paulo - SP | Remoto

    Descrição da vaga

    Arquitetar e evoluir a infraestrutura da plataforma de IA da Cloud TOTVS de forma segura, escalável e sustentável, assegurando previsibilidade operacional, eficiência financeira e baixo acoplamento tecnológico, de modo a sustentar o crescimento contínuo dos serviços de inferência e dos produtos de IA da companhia.

    Responsabilidades e atribuições

  • Arquitetar e evoluir a infraestrutura de inferência e suporte a treinamento e fine-tuning de modelos, com abordagem GPU-first, considerando ambientes on-premises, cloud e serviços externos quando aplicável.
  • Definir a arquitetura do ambiente, incluindo topologias de rede, isolamento de workloads, alta disponibilidade, capacidade e resiliência.
  • Planejar e executar a implantação da plataforma de IA, garantindo compatibilidade entre hardware, sistema operacional, drivers, stacks CUDA (ou equivalentes), Kubernetes e plataformas de inferência.
  • Operar e sustentar a plataforma de inferência em produção, assegurando disponibilidade, desempenho e continuidade operacional (em escopo de arquitetura estratégica).
  • Apoiar o planejamento e a execução de ações de melhoria decorrentes de incidentes complexos envolvendo GPUs, Kubernetes, redes, storage e workloads de inferência.
  • Aplicar práticas de SRE, incluindo definição e acompanhamento de SLOs, SLIs, error budgets e gestão de incidentes.
  • Operar e evoluir stacks de inferência comerciais e open source (ex.: NVIDIA AI Enterprise, Triton, vLLM, KServe), garantindo portabilidade e mitigação de lock-in.
  • Definir e padronizar o uso de serviços de inferência quando aplicável (ex.: Triton, NIM).
  • Arquitetar e operar clusters Kubernetes para workloads de IA, com foco em isolamento multi-tenant, GPU scheduling, concorrência, filas, backpressure e escalabilidade.
  • Implementar observabilidade full stack, abrangendo infraestrutura, GPUs, Kubernetes e serviços de inferência.
  • Garantir visibilidade sobre consumo de recursos, capacidade, riscos operacionais e impacto financeiro das cargas de IA.
  • Apoiar processos de capacity planning e planejamento orçamentário, avaliando trade-offs entre soluções comerciais e open source.
  • Integrar práticas de DevSecOps desde a concepção até a operação da plataforma.
  • Garantir conformidade com políticas de segurança, auditoria, controle de acesso e segregação de ambientes.
  • Disseminar padrões técnicos, boas práticas e conhecimento por meio de documentação estruturada e mentorias técnicas.
  • Apoiar tecnicamente fóruns internos e processos decisórios relacionados à infraestrutura de IA.
  • Requisitos e qualificações

    Experiência 
    • Experiência mínima de 5 anos em infraestrutura de TI, cloud ou plataformas distribuídas, com atuação em ambientes críticos.
    • Experiência comprovada em arquitetura e operação de sistemas distribuídos, preferencialmente com workloads de dados, analytics ou IA.
    • Vivência mínima de 3 anos em equipes multidisciplinares, interagindo com times de produto, dados, segurança e arquitetura.
    Formação Acadêmica
    • Graduação em Tecnologia da Informação, Engenharia, Ciência da Computação ou áreas correlatas.
    • Pós-graduação ou MBA em Arquitetura de Software, Cloud Computing, Sistemas Distribuídos, Segurança da Informação ou áreas afins (desejável).
    Idiomas
    • Inglês avançado para leitura técnica, escrita e conversação, com capacidade de participar de discussões técnicas e estratégicas.
    Certificações (diferenciais)
    • Certificações relacionadas a Kubernetes, Cloud Pública e Infraestrutura como Código (IaC).
    Conhecimentos Específicos / Habilidades
    • Domínio de sistemas distribuídos, incluindo concorrência, balanceamento de carga, isolamento de workloads, filas e backpressure.
    • Experiência sólida em Kubernetes, incluindo ambientes gerenciados (EKS, GKE, AKS), scheduling avançado e isolamento multi-tenant.
    • Conhecimento avançado em ambientes de missão crítica, com foco em alta disponibilidade, resiliência e continuidade operacional.
    • Domínio de arquitetura de redes aplicadas a cloud e Kubernetes (TCP/IP, DNS, Load Balancers, Firewalls, SDN).
    • Domínio na aplicação de soluções de storage para workloads I/O intensive em Kubernetes e ambientes de grande escala.
    • Experiência com serviços de nuvem pública (AWS, Azure e/ou GCP) e entendimento do modelo de responsabilidade compartilhada.
    • Domínio de observabilidade (métricas, logs e traces) aplicada a infraestrutura e plataformas de IA.
    • Experiência com Infraestrutura como Código (IaC) e automação.
    • Conhecimento aplicado em práticas de DevSecOps e SRE.

    Requisitos desejáveis

  • Forte senso de ownership sobre a plataforma e seus resultados.
  • Capacidade de atuar na resolução de problemas complexos de infraestrutura e sistemas distribuídos.
  • Comunicação clara e estruturada com públicos técnicos, com habilidade de traduzir impactos técnicos em riscos operacionais e financeiros.
  • Tomada de decisão orientada por trade-offs técnicos, operacionais e de custo.
  • Mentalidade voltada à confiabilidade, melhoria contínua e visão de plataforma.
  • Alta capacidade analítica para diagnóstico e resolução de problemas complexos.
  • Entendimento do contexto de negócio para embasar decisões técnicas.
  • Postura proativa e orientada a resultados.
  • Perfil colaborativo, com facilidade de atuação em ambientes multidisciplinares.
  • Atuará na área de Infra Core, integrante da estrutura de Infraestrutura dentro do ecossistema de Cloud.
  • A área possui caráter estruturante, com tomada de decisões que impactam a companhia como um todo, especialmente na definição da arquitetura estratégica de nuvem.
  • O profissional atuará como Tech Lead, com autonomia para conduzir iniciativas de forma independente e responsabilidade por apoiar e desenvolver outros profissionais, incluindo especialistas.
  • Deverá demonstrar forte capacidade de aprender, desaprender e ensinar, acompanhando a evolução contínua do ambiente de Cloud, com foco estratégico atual em IA e arquitetura distribuída.
  • Enviar candidatura
    Enviar candidatura

    Faixa salarial

    A combinar

    Regime de contratação

    CLT

    Benefícios

    • Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
    • Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
    • Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
    • Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
    • Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
    • Plano de saúde e odontológico;
    • Vale refeição e / ou alimentação;
    • Vale transporte e fretados em algumas estações do metrô;
    • Licença maternidade e paternidade estendida;
    • Espaço de lactário;
    • Bicicletário;
    • Vestiário;
    • Seguro de vida;
    • Auxílio creche;
    • Previdência privada;
    • Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
    • Gympass.

    Sobre a empresa

    Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance. 
    Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!
    Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes. 
    Vem com a gente inovar e construir o futuro da tecnologia.
    #VemPraTOTVS #SomosTOTVS
    Ver página da empresa