Full-time
AI Architect (Runtime & Inference) - LLM Platforms | Specialist (Remote)
Posted by Compass UOL • Remote, Remote, Brazil
About the Role
Responsabilidades e atribuições
- Operar, otimizar e evoluir o runtime de agentes e a infraestrutura de inferência de LLMs em produção;
- Definir e implementar arquitetura de endpoints de modelo com foco em SLOs de latência e disponibilidade;
- Projetar e manter pipelines completos de observabilidade: métricas, logs estruturados, traces distribuídos e alertas inteligentes;
- Conduzir otimizações avançadas de performance: batching dinâmico, caching semântico, quantização e gestão de contexto;
- Liderar resposta a incidentes e análises de causa raiz em falhas do ambiente de inferência;
- Definir padrões de resiliência e estratégias de failover para workloads de LLM em produção;
- Produzir runbooks, playbooks e documentação operacional de referência para o ambiente;
Requisitos e qualificações
Habilidades Necessárias- Expertise em operação de modelos de linguagem em produção com foco ...
Ready to Apply?
Submit your application today and take the next step in your career journey with Compass UOL.
Apply Now