Full-time

AI Architect (Runtime & Inference) - LLM Platforms | Specialist (Remote)

Posted by Compass UOL • Remote, Remote, Brazil

📍 Remote, Remote 🕒 May 29, 2026

Apply for this Job Similar Jobs

About the Role

Responsabilidades e atribuições Operar, otimizar e evoluir o runtime de agentes e a infraestrutura de inferência de LLMs em produção; 
Definir e implementar arquitetura de endpoints de modelo com foco em SLOs de latência e disponibilidade; 
Projetar e manter pipelines completos de observabilidade: métricas, logs estruturados, traces distribuídos e alertas inteligentes; 
Conduzir otimizações avançadas de performance: batching dinâmico, caching semântico, quantização e gestão de contexto; 
Liderar resposta a incidentes e análises de causa raiz em falhas do ambiente de inferência; 
Definir padrões de resiliência e estratégias de failover para workloads de LLM em produção; 
Produzir runbooks, playbooks e documentação operacional de referência para o ambiente; 
Requisitos e qualificações Habilidades Necessárias Expertise em operação de modelos de linguagem em produção com foco ...
                

Job Details

Location Remote, Remote
Job Type Full-time
Category Arquitetura e design de software
Posted May 29, 2026
Deadline July 08, 2026

Ready to Apply?

Submit your application today and take the next step in your career journey with Compass UOL.

Apply Now