Especialista II De Infraestrutura De Cloud

TOTVS | São Paulo - SP | Remoto

Arquitetar e evoluir a infraestrutura da plataforma de IA da Cloud TOTVS de forma segura, escalável e sustentável, assegurando previsibilidade operacional, eficiência financeira e baixo acoplamento tecnológico, de modo a sustentar o crescimento contínuo dos serviços de inferência e dos produtos de IA da companhia.

Faixa salarial

A combinar

Regime de contratação

CLT

Benefícios

Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
Plano de saúde e odontológico;
Vale refeição e / ou alimentação;
Vale transporte e fretados em algumas estações do metrô;
Licença maternidade e paternidade estendida;
Espaço de lactário;
Bicicletário;
Vestiário;
Seguro de vida;
Auxílio creche;
Previdência privada;
Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
Gympass.

Arquitetar e evoluir a infraestrutura de inferência e suporte a treinamento e fine-tuning de modelos, com abordagem GPU-first, considerando ambientes on-premises, cloud e serviços externos quando aplicável.

Definir a arquitetura do ambiente, incluindo topologias de rede, isolamento de workloads, alta disponibilidade, capacidade e resiliência.

Planejar e executar a implantação da plataforma de IA, garantindo compatibilidade entre hardware, sistema operacional, drivers, stacks CUDA (ou equivalentes), Kubernetes e plataformas de inferência.

Operar e sustentar a plataforma de inferência em produção, assegurando disponibilidade, desempenho e continuidade operacional (em escopo de arquitetura estratégica).

Apoiar o planejamento e a execução de ações de melhoria decorrentes de incidentes complexos envolvendo GPUs, Kubernetes, redes, storage e workloads de inferência.

Aplicar práticas de SRE, incluindo definição e acompanhamento de SLOs, SLIs, error budgets e gestão de incidentes.

Operar e evoluir stacks de inferência comerciais e open source (ex.: NVIDIA AI Enterprise, Triton, vLLM, KServe), garantindo portabilidade e mitigação de lock-in.

Definir e padronizar o uso de serviços de inferência quando aplicável (ex.: Triton, NIM).

Arquitetar e operar clusters Kubernetes para workloads de IA, com foco em isolamento multi-tenant, GPU scheduling, concorrência, filas, backpressure e escalabilidade.

Implementar observabilidade full stack, abrangendo infraestrutura, GPUs, Kubernetes e serviços de inferência.

Garantir visibilidade sobre consumo de recursos, capacidade, riscos operacionais e impacto financeiro das cargas de IA.

Apoiar processos de capacity planning e planejamento orçamentário, avaliando trade-offs entre soluções comerciais e open source.

Integrar práticas de DevSecOps desde a concepção até a operação da plataforma.

Garantir conformidade com políticas de segurança, auditoria, controle de acesso e segregação de ambientes.

Disseminar padrões técnicos, boas práticas e conhecimento por meio de documentação estruturada e mentorias técnicas.

Apoiar tecnicamente fóruns internos e processos decisórios relacionados à infraestrutura de IA.

Experiência

Experiência mínima de 5 anos em infraestrutura de TI, cloud ou plataformas distribuídas, com atuação em ambientes críticos.
Experiência comprovada em arquitetura e operação de sistemas distribuídos, preferencialmente com workloads de dados, analytics ou IA.
Vivência mínima de 3 anos em equipes multidisciplinares, interagindo com times de produto, dados, segurança e arquitetura.

Formação Acadêmica

Graduação em Tecnologia da Informação, Engenharia, Ciência da Computação ou áreas correlatas.
Pós-graduação ou MBA em Arquitetura de Software, Cloud Computing, Sistemas Distribuídos, Segurança da Informação ou áreas afins (desejável).

Idiomas

Inglês avançado para leitura técnica, escrita e conversação, com capacidade de participar de discussões técnicas e estratégicas.

Certificações (diferenciais)

Certificações relacionadas a Kubernetes, Cloud Pública e Infraestrutura como Código (IaC).

Conhecimentos Específicos / Habilidades

Domínio de sistemas distribuídos, incluindo concorrência, balanceamento de carga, isolamento de workloads, filas e backpressure.
Experiência sólida em Kubernetes, incluindo ambientes gerenciados (EKS, GKE, AKS), scheduling avançado e isolamento multi-tenant.
Conhecimento avançado em ambientes de missão crítica, com foco em alta disponibilidade, resiliência e continuidade operacional.
Domínio de arquitetura de redes aplicadas a cloud e Kubernetes (TCP/IP, DNS, Load Balancers, Firewalls, SDN).
Domínio na aplicação de soluções de storage para workloads I/O intensive em Kubernetes e ambientes de grande escala.
Experiência com serviços de nuvem pública (AWS, Azure e/ou GCP) e entendimento do modelo de responsabilidade compartilhada.
Domínio de observabilidade (métricas, logs e traces) aplicada a infraestrutura e plataformas de IA.
Experiência com Infraestrutura como Código (IaC) e automação.
Conhecimento aplicado em práticas de DevSecOps e SRE.

Forte senso de ownership sobre a plataforma e seus resultados.

Capacidade de atuar na resolução de problemas complexos de infraestrutura e sistemas distribuídos.

Comunicação clara e estruturada com públicos técnicos, com habilidade de traduzir impactos técnicos em riscos operacionais e financeiros.

Tomada de decisão orientada por trade-offs técnicos, operacionais e de custo.

Mentalidade voltada à confiabilidade, melhoria contínua e visão de plataforma.

Alta capacidade analítica para diagnóstico e resolução de problemas complexos.

Entendimento do contexto de negócio para embasar decisões técnicas.

Postura proativa e orientada a resultados.

Perfil colaborativo, com facilidade de atuação em ambientes multidisciplinares.

Atuará na área de Infra Core, integrante da estrutura de Infraestrutura dentro do ecossistema de Cloud.

A área possui caráter estruturante, com tomada de decisões que impactam a companhia como um todo, especialmente na definição da arquitetura estratégica de nuvem.

O profissional atuará como Tech Lead, com autonomia para conduzir iniciativas de forma independente e responsabilidade por apoiar e desenvolver outros profissionais, incluindo especialistas.

Deverá demonstrar forte capacidade de aprender, desaprender e ensinar, acompanhando a evolução contínua do ambiente de Cloud, com foco estratégico atual em IA e arquitetura distribuída.

Como empresa líder em tecnologia somos um universo de pessoas inconformadas, movidas por inovação, autonomia, aprendizado e performance.

Juntos e juntas, criamos oportunidades, transformamos futuros e compartilhamos conhecimento. Aqui o seu desenvolvimento profissional acontece em um ambiente inclusivo, respeitoso e energizante. De gente pra gente!

Buscamos o crescimento sustentável. E usamos dados e IA para impulsionar resultados mais inteligentes e eficientes para os nossos clientes.

Vem com a gente inovar e construir o futuro da tecnologia.

#VemPraTOTVS #SomosTOTVS

Ver página da empresa

Enviar candidatura

Especialista II De Infraestrutura De Cloud

TOTVS | São Paulo - SP | Remoto

Descrição da vaga

Responsabilidades e atribuições