Especialista II SRE (IA)
TOTVS | São Paulo - SP | Remoto
Missão do cargo:
Esta pessoa fará parte do time de SRE de uma plataforma que disponibiliza serviços de Inteligência Artificial para diversas áreas, bem como possibilita o desenvolvimento de soluções de agentes de IA integrados a produtos TOTVS. Esta aplicação está no núcleo estratégico da TOTVS, e serve diversas áreas da companhia como uma área de plataforma, para clientes internos e externos.
Faixa salarial
A combinar
Regime de contratação
CLT
Benefícios
- Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
- Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
- Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
- Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
- Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
- Plano de saúde e odontológico;
- Vale refeição e / ou alimentação;
- Vale transporte e fretados em algumas estações do metrô;
- Licença maternidade e paternidade estendida;
- Espaço de lactário;
- Bicicletário;
- Vestiário;
- Seguro de vida;
- Auxílio creche;
- Previdência privada;
- Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
- Gympass.
O QUE VOCÊ VAI FAZER:
- Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência, segurança e observabilidade de ponta a ponta.
- Automatizar infraestrutura (IaC) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda.
- Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros.
- Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída.
- Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo.
- Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas.
- Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.
- Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
O QUE ESPERAMOS DE VOCÊ:
- Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure).
- Domínio de Linux, redes, containers (Docker) e Kubernetes.
- Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation).
- Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares.
- Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager.
- Programação/scripting em Python e Bash (Go é bônus).
- Conhecimento de Postgres, Redis e tuning de performance.
- Experiência em gestão de incidentes e elaboração de post-mortems.
- Inglês técnico para leitura e escrita.
DIFERENCIAL:
- Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless.
- Experiência com Cloud Run, Knative ou FaaS.
- Noções de cost optimisation em FinOps.
- Contribuições open-source em projetos Cloud Native.
- Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana.
- Familiaridade com pipelines de CI/CD.
- Conhecimento em infraestrutura como código (IaC), como Terraform.
- Experiência com agentes de IA, LLMs e RAG.
- Conhecimento em protocolos de rede, como TCP/IP e HTTP.
- Experiência com proxy reverso e balanceamento de carga.
Se você é uma pessoa que é gente boa, gosta de aprender e é apaixonada por resultados, você está no lugar certo! Como maior empresa de tecnologia do Brasil, queremos construir um ecossistema cada vez mais forte, com pessoas que gostem de inovar e acreditem na colaboração para fazer a diferença!
Aqui temos um ambiente dinâmico, que celebra a diversidade, promove a inclusão e está sempre em busca dos melhores resultados! Acreditamos no poder transformador da tecnologia e na sua capacidade de contribuir para a construção de uma sociedade mais diversa e inclusiva. Por isso, temos compromisso com nossa política e programa de diversidade e inclusão para garantirmos um ecossistema cada vez mais representativo, respeitoso e acolhedor.
#ouseetransforme #sejaTOTVS
Especialista II SRE (IA)
TOTVS | São Paulo - SP | Remoto
Descrição da vaga
Missão do cargo:
Esta pessoa fará parte do time de SRE de uma plataforma que disponibiliza serviços de Inteligência Artificial para diversas áreas, bem como possibilita o desenvolvimento de soluções de agentes de IA integrados a produtos TOTVS. Esta aplicação está no núcleo estratégico da TOTVS, e serve diversas áreas da companhia como uma área de plataforma, para clientes internos e externos.
Responsabilidades e atribuições
O QUE VOCÊ VAI FAZER:
- Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência, segurança e observabilidade de ponta a ponta.
- Automatizar infraestrutura (IaC) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda.
- Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros.
- Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída.
- Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo.
- Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas.
- Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.
- Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
Requisitos e qualificações
O QUE ESPERAMOS DE VOCÊ:
- Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure).
- Domínio de Linux, redes, containers (Docker) e Kubernetes.
- Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation).
- Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares.
- Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager.
- Programação/scripting em Python e Bash (Go é bônus).
- Conhecimento de Postgres, Redis e tuning de performance.
- Experiência em gestão de incidentes e elaboração de post-mortems.
- Inglês técnico para leitura e escrita.
Requisitos desejáveis
DIFERENCIAL:
- Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless.
- Experiência com Cloud Run, Knative ou FaaS.
- Noções de cost optimisation em FinOps.
- Contribuições open-source em projetos Cloud Native.
- Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana.
- Familiaridade com pipelines de CI/CD.
- Conhecimento em infraestrutura como código (IaC), como Terraform.
- Experiência com agentes de IA, LLMs e RAG.
- Conhecimento em protocolos de rede, como TCP/IP e HTTP.
- Experiência com proxy reverso e balanceamento de carga.
Faixa salarial
A combinar
Regime de contratação
CLT
Benefícios
- Universidade em Rede TOTVS, uma universidade Corporativa com conteúdos e certificações gratuitos para cada pessoa colaboradora;
- Programa +Saudáveis, que cuida de cada TOTVER com assessoria e ações voltadas para o bem estar em corpo, mente e finanças pessoais;
- Programa +Vantagens, a maior rede de descontos da América Latina, exclusivos para nossas pessoas colaboradoras;
- Programa + Cuidado, programa de apoio pessoal para pessoas colaboradoras e familiares, com orientações em diversas especialidades como: psicologia, serviço social, pet consultoria...
- Einstein Conecta, benefício de orientação médica online pelos médicos do Hospital Israelita Albert Einstein, totalmente gratuito;
- Plano de saúde e odontológico;
- Vale refeição e / ou alimentação;
- Vale transporte e fretados em algumas estações do metrô;
- Licença maternidade e paternidade estendida;
- Espaço de lactário;
- Bicicletário;
- Vestiário;
- Seguro de vida;
- Auxílio creche;
- Previdência privada;
- Escritório que estimula a criatividade e produtividade com ambientes para lanches, salas de jogos, mesas de bilhar e poltronas para relaxar;
- Gympass.
Sobre a empresa
Se você é uma pessoa que é gente boa, gosta de aprender e é apaixonada por resultados, você está no lugar certo! Como maior empresa de tecnologia do Brasil, queremos construir um ecossistema cada vez mais forte, com pessoas que gostem de inovar e acreditem na colaboração para fazer a diferença!
Aqui temos um ambiente dinâmico, que celebra a diversidade, promove a inclusão e está sempre em busca dos melhores resultados! Acreditamos no poder transformador da tecnologia e na sua capacidade de contribuir para a construção de uma sociedade mais diversa e inclusiva. Por isso, temos compromisso com nossa política e programa de diversidade e inclusão para garantirmos um ecossistema cada vez mais representativo, respeitoso e acolhedor.
#ouseetransforme #sejaTOTVS