[Infra] Especialista II de Infraestrutura de Cloud (IA)

TOTVS | São Paulo - SP | Remoto

Arquitetar, evoluir e operar a infraestrutura da plataforma de IA da Cloud TOTVS de forma segura, escalável e sustentável, garantindo previsibilidade operacional, baixo acoplamento tecnológico e eficiência financeira, suportando os serviços de inferência e suas dependências ao longo do crescimento dos produtos de IA da companhia.

Faixa salarial

A combinar

Regime de contratação

CLT

Benefícios

Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
Plano de saúde e odontológico;
Vale refeição e / ou alimentação;
Vale transporte e fretados em algumas estações do metrô;
Licença maternidade e paternidade estendida;
Espaço de lactário;
Bicicletário;
Vestiário;
Seguro de vida;
Auxílio creche;
Previdência privada;
Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
Gympass.

Arquitetar e operar infraestrutura de inferência e suporte a treinamento e fine-tuning de modelos (GPU-first), em ambientes on-premises, cloud e serviços externos.

Definir arquitetura física e lógica (rede, isolamento, alta disponibilidade, capacidade e resiliência).

Planejar e executar a implantação da plataforma de IA, garantindo compatibilidade entre hardware, SO, drivers, CUDA, Kubernetes e stacks de inferência.

Operar a plataforma de inferência em produção, assegurando disponibilidade, desempenho e continuidade.

Atuar na resolução de incidentes complexos (GPUs, Kubernetes, redes, storage e workloads de IA).

Aplicar práticas de SRE (SLOs, SLIs, error budgets e gestão de incidentes).

Operar e evoluir stacks de inferência (comerciais e open source), garantindo portabilidade e mitigação de lock-in.

Definir e padronizar serviços de inferência (ex.: Triton, NIM).

Arquitetar e operar clusters Kubernetes para IA (multi-tenant, scheduling de GPU, filas, concorrência, backpressure e escala).

Implementar observabilidade full stack (infraestrutura, GPUs, Kubernetes e serviços de inferência).

Garantir visibilidade de consumo de recursos, capacidade, riscos operacionais e impacto financeiro.

Apoiar capacity planning e planejamento orçamentário.

Integrar práticas de DevSecOps ao ciclo completo da plataforma.

Garantir conformidade com segurança, auditoria, acessos e segregação de ambientes.

Disseminar padrões técnicos, boas práticas e conhecimento (documentação e mentoria).

Apoiar fóruns técnicos e decisões estratégicas relacionadas à infraestrutura de IA.

Experiência mínima de 5 anos em infraestrutura de TI, cloud ou sistemas distribuídos em ambientes críticos.

Experiência em arquitetura e operação de sistemas distribuídos (preferencialmente com dados, analytics ou IA).

Vivência em equipes multidisciplinares com interação com produto, dados, segurança e arquitetura.

Graduação em TI, Engenharia, Ciência da Computação ou áreas correlatas.

Inglês avançado (leitura, escrita e conversação técnica).

Domínio de sistemas distribuídos (concorrência, balanceamento, filas, isolamento e backpressure).

Experiência sólida com Kubernetes (EKS, GKE, AKS, scheduling avançado, multi-tenant).

Conhecimento avançado em ambientes de missão crítica (alta disponibilidade e resiliência).

Domínio de redes (TCP/IP, DNS, load balancers, firewalls, SDN).

Experiência com storage para workloads intensivos em I/O e larga escala.

Experiência com cloud pública (AWS, Azure e/ou GCP).

Domínio de observabilidade (métricas, logs e traces).

Experiência com Infraestrutura como Código (IaC) e automação.

Conhecimento em práticas DevSecOps e SRE.

Forte capacidade analítica para resolução de problemas complexos.

Comunicação clara e orientada a impacto técnico e operacional.

Entendimento de contexto de negócio para embasar decisões técnicas.

Pós-graduação ou MBA em áreas como Arquitetura de Software, Cloud, Sistemas Distribuídos ou Segurança.
Certificações Kubernetes (CKA, CKAD ou CKS).
Certificações Linux (LPIC-3, RHCE ou equivalente).
Certificações em cloud (AWS, Azure ou GCP).
Certificações NVIDIA (NCP-AI ou NCA-AI).
Certificações em Segurança, DevSecOps ou Arquitetura (ex.: CISSP, CCSK, TOGAF).

Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance.

Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!

Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes.

Vem com a gente inovar e construir o futuro da tecnologia.

#VemPraTOTVS #SomosTOTVS

Ver página da empresa

Enviar candidatura

[Infra] Especialista II de Infraestrutura de Cloud (IA)

TOTVS | São Paulo - SP | Remoto

Descrição da vaga

Responsabilidades e atribuições