TL;DR: GLM-4.5 integra raciocínio, codificação e habilidades agênticas em um único modelo, oferecendo modos de “pensamento” e “não-pensamento” para otimizar velocidade e qualidade. Apresenta performance competitiva em diversos benchmarks, destacando-se na criação de aplicações e automação de tarefas complexas. A arquitetura MoE eficiente e o treinamento por RL contribuem para ganhos em diferentes domínios, facilitando a construção de soluções inteligentes e automatizadas.
Takeaways:
- GLM-4.5 unifica raciocínio, codificação e habilidades agênticas, evitando a necessidade de modelos especializados.
- Oferece modos de operação adaptáveis para equilibrar velocidade e qualidade em diferentes tarefas.
- Apresenta resultados competitivos em benchmarks de raciocínio, codificação e capacidades agênticas.
- Demonstra potencial na criação de artefatos autônomos, como mini-jogos e websites full-stack.
- Adota arquitetura MoE eficiente e treinamento por RL para ganhos transferíveis em tarefas adjacentes.
GLM-4.5: Avanços em Raciocínio, Codificação e Habilidades Agênticas
Introdução
A série GLM-4.5 inaugura uma etapa importante na convergência de três frentes que, por anos, evoluíram de forma relativamente separada nos grandes modelos de linguagem: raciocínio, codificação e habilidades agênticas. Em vez de otimizar cada dimensão isoladamente, a proposta é unificar essas capacidades em um único modelo capaz de alternar entre modos de resposta instantânea e modos orientados a raciocínio e uso de ferramentas. Com isso, pretende-se reduzir compromissos de desempenho típicos de modelos especializados.
Essa abordagem está materializada em duas variantes complementares: GLM-4.5 e GLM-4.5-Air. Ambas foram concebidas para oferecer respostas rápidas quando necessário (“não-pensamento”) e, quando as tarefas exigem, ativar o “pensamento” para raciocínio de múltiplas etapas, cálculo de hipóteses, coordenação de ferramentas e navegação em webs de ações. O resultado é um arcabouço único que atende desde perguntas objetivas até projetos de software completos e interações agênticas complexas.
GLM-4.5 e GLM-4.5-Air: visão geral e modos de operação
GLM-4.5 e GLM-4.5-Air são modelos de linguagem grandes (LLMs) desenhados para unificar raciocínio, codificação e capacidades agênticas em um único sistema. O GLM-4.5 possui 355 bilhões de parâmetros totais (com 32 bilhões ativos), enquanto o GLM-4.5-Air possui 106 bilhões totais (12 bilhões ativos). Essa arquitetura possibilita otimizar a eficiência com especialistas roteados e ativação parcial, preservando desempenho de ponta em tarefas desafiadoras sem custo computacional proibitivo.
Uma distinção central é a coexistência de dois modos de uso: o modo de “pensamento”, acionado quando há necessidade de raciocínio complexo e uso de ferramentas, e o modo “não-pensamento”, voltado a respostas instantâneas e diretas. Essa escolha contextual evita tanto a lentidão em perguntas simples quanto a superficialidade em problemas que exigem explorar cadeias de inferência, lógica e planejamento em múltiplas etapas.
Além da proposta técnica, a disponibilização também é ampla: ambos os modelos estão acessíveis via Z.ai e Z.ai API, com pesos abertos no HuggingFace e no ModelScope, e suporte a frameworks de inferência como vLLM e SGLang para implantação local. O objetivo declarado é unificar diversas capacidades em um único modelo e, simultaneamente, facilitar a adoção prática por equipes técnicas por meio de APIs compatíveis e distribuição aberta.
Desempenho geral em benchmarks amplos
O GLM-4.5 foi comparado a modelos de OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, Moonshot e DeepSeek em 12 benchmarks que cobrem tarefas agênticas, raciocínio e codificação. No agregado, o GLM-4.5 alcançou o 3º lugar em desempenho geral, enquanto o GLM-4.5-Air ficou em 6º lugar. Esses resultados evidenciam que a unificação de capacidades não implica sacrificar performance em tarefas específicas.
Uma leitura técnica importante é a eficiência performance-escala: tanto GLM-4.5 quanto GLM-4.5-Air demonstram resultados superiores frente a modelos de escala comparável, sugerindo que a combinação de arquitetura MoE com treinamentos focados em raciocínio e código proporciona boa relação entre custo e ganho prático. O desenho híbrido permite conservar força em múltiplos domínios, em vez de concentrar o desempenho apenas em uma categoria.
Na prática, esse desempenho geral indica que o desenvolvedor não precisa escolher entre um modelo “para código” e outro “para raciocínio ou agentes”. Em cenários reais, onde tarefas se sobrepõem (por exemplo, engenharia de software com leitura de documentação, análise de logs e execução de scripts), a convergência facilita fluxos de trabalho mais fluidos e com menos trocas de sistema.
Capacidades agênticas e navegação baseada em ferramentas
O GLM-4.5 é otimizado para tarefas agênticas, oferecendo 128k de comprimento de contexto e capacidade nativa de chamada de função. Em benchmarks voltados a agentes, como τ-bench e BFCL-v3 (Berkeley Function Calling Leaderboard v3), o GLM-4.5 corresponde ao desempenho do Claude 4 Sonnet. Essas avaliações simulam o ciclo percepção-ação de um agente que planeja, invariavelmente chama ferramentas e itera até atingir um objetivo verificável.
No benchmark BrowseComp, que exige raciocínio com navegação na web em múltiplas etapas e respostas curtas, o GLM-4.5 obteve 26,4% de acertos com acesso a ferramenta de navegação, superando o Claude-4-Opus (18,8%) e aproximando-se do o4-mini-high (28,3%). Isso sugere que o modelo consegue coordenar busca, leitura e síntese de forma robusta ao operar como um agente de pesquisa.
“Quote técnica” (trecho original):
GLM-4.5 is a foundation model optimized for agentic tasks. It provides 128k context length and native function calling capacity. We measure its agent ability on τ-bench and BFCL-v3 (Berkeley Function Calling Leaderboard v3). On both benchmarks, GLM-4.5 matches the performance of Claude 4 Sonnet. … With access to the web browsing tool, GLM-4.5 gives correct answers for 26.4% of all questions, clearly outperforming Claude-4-Opus (18.8%) and close to o4-mini-high (28.3%).
Raciocínio complexo em modo “pensamento”
No modo de “pensamento”, GLM-4.5 e GLM-4.5-Air podem resolver problemas complexos de matemática, ciência e lógica. Essa capacidade foi avaliada em baterias como MMLU Pro, AIME24 e MATH 500, que exigem compreensão conceitual, manipulação simbólica e precisão. O objetivo é demonstrar não apenas memorização, mas também generalização e adaptação a novas combinações de conceitos.
“Quote técnica” (trecho original):
Under the thinking mode, GLM-4.5 and GLM-4.5-Air can solve complex reasoning problems including mathematics, science, and logical problems.
Na prática, o modo de “pensamento” ajuda a decompor problemas em subetapas, verificar consistência parcial e integrar resultados intermediários com chamadas a ferramentas (por exemplo, execução controlada de snippets de código, cálculo simbólico ou consultas). Quando a tarefa não exige tal estrutura, o modo “não-pensamento” fornece agilidade, evitando custos desnecessários. A alternância entre modos é, portanto, uma estratégia de execução adaptativa.
Habilidades de codificação: do zero ao contexto de projetos existentes
O GLM-4.5 se destaca tanto em construir projetos do zero quanto em resolver tarefas de codificação dentro de bases de código já existentes. É compatível com toolkits como Claude Code, Roo Code e CodeGeex, combinando interpretação de requisitos, escrita de componentes, geração de testes e integração em pipelines. Essa capacidade “agentic” de programar inclui, ainda, coordenação de ferramentas, exploração do ambiente e iteração com feedback.
“Quote técnica” (trecho original):
GLM-4.5 excels at coding, including both building coding projects from scratch and agentically solving coding tasks in existing projects. It can be seamlessly combined with existing coding toolkits such as Claude Code, Roo Code, and CodeGeex. To evaluate the coding capability, we compared different models on SWE-bench Verified and Terminal Bench.
Nos benchmarks de codificação, a avaliação utilizou SWE-bench Verified e Terminal Bench. Em termos de resultados, o GLM-4.5 obteve 64,2 no SWE-bench Verified e 37,5 no Terminal Bench, demonstrando robustez em correções guiadas por execução e tarefas terminal-driven. Em avaliações agentic com Claude Code, o GLM-4.5 alcançou taxa de sucesso de 53,9% contra Kimi K2 e 80,8% contra Qwen3-Coder, além da maior taxa média de sucesso em chamadas de ferramentas (90,6%), sugerindo elevada confiabilidade no uso de toolchains.
Criação de artefatos e aplicações: de mini-jogos a websites full-stack
A versão 4.5 aprimora a geração de código complexo introduzida previamente, criando artefatos autônomos como mini-jogos interativos e simulações de física em HTML, SVG, Python e outros formatos. Além de melhorar a experiência do usuário, esse progresso fornece base para aplicações de codificação agêntica avançadas, que exigem pipelines de execução mais longos e mecanismos de verificação.
“Exemplo prático” (trecho original):
GLM-4.5 enhances the complex code generation capabilities introduced in the April release of GLM-4. The model now creates sophisticated standalone artifacts—from interactive mini-games to physics simulations—across HTML, SVG, Python and other formats.
A criação de slides e pôsteres também foi integrada a um agente nativo de PPT/Poster que utiliza ferramentas agênticas e codificação HTML. O agente pode, de forma autônoma, buscar informações na web e imagens, e então produzir apresentações completas a partir de pedidos simples ou complexos, inclusive com upload de documentos como fonte de conteúdo. Esse fluxo automatiza tarefas comumente manuais na preparação de materiais visuais.
“Exemplo prático” (trecho original):
Leveraging GLM-4.5’s powerful agentic tool usage and HTML coding capabilities, we developed a model-native PPT/Poster agent. Users can request simple or complex designs, or upload documents, the agent autonomously searches the web or retrieves images, then creates the slides.
Desenvolvimento full-stack orientado a diálogo
O GLM-4.5 demonstra capacidades full-stack abrangentes, integrando frontend, gerenciamento de banco de dados e backend, e alinhando-se a preferências humanas de design nas interfaces geradas. Além do desenvolvimento estrutural, o modelo auxilia na documentação, geração de testes e implantação, compondo um ciclo mais completo de engenharia de software.
Para demonstrar essas capacidades, um agente de codificação inspirado em Claude Code foi desenvolvido: com um boilerplate web full-stack básico, o usuário consegue criar um site inteiro “com poucas palavras” e iterar recursos por meio de diálogo multi-turn. Esse fluxo reduz a barreira de entrada para prototipagem e acelera ajustes finos com feedback rápido e contextual.
“Exemplo prático” (trecho original):
GLM-4.5 excels in both frontend and backend development, making it powerful for building modern web applications. … By providing a basic full-stack website boilerplate, the agent enables users to create an entire website with just a few words. Users can effortlessly add features and refine their projects through multi-turn dialogue.
Arquitetura e treinamento: MoE eficiente, otimizações e corpora dedicados
A série GLM-4.5 adota arquitetura MoE (Mixture of Experts) com balanceamento de roteamento sem perdas e gates sigmoid, reduzindo a largura (dimensão oculta e número de experts roteados) e aumentando a profundidade (camadas), o que se mostrou benéfico ao raciocínio. Emprega Grouped-Query Attention com RoPE parcial e aumenta em 2,5 vezes o número de cabeças de atenção (por exemplo, 96 para dimensão 5120), melhoria que, embora não reduza a perda de treino, eleva o desempenho em benchmarks de raciocínio. O otimizador Muon acelera a convergência e tolera lotes maiores, enquanto o QK-Norm estabiliza o intervalo dos logits de atenção.
“Quote técnica” (trecho original):
In the GLM-4.5 series, we adopt the MoE architecture… we reduce the width … while increasing the height … deeper models exhibit better reasoning capacity. … we utilize 2.5 times more attention heads … it consistently enhances performance on reasoning benchmarks such as MMLU and BBH. For GLM-4.5, we utilize the Muon optimizer … We also incorporate QK-Norm … we add an MTP (Multi-Token Prediction) layer to support speculative decoding during inference.
O treinamento prévio ocorre em 15 trilhões de tokens de um corpus geral, seguido por 7 trilhões de tokens focados em código e raciocínio. Após o pré-treinamento, estágios adicionais com conjuntos de dados de domínio (incluindo dados de instrução) consolidam capacidades-chave. Para inferência, uma camada MTP (Multi-Token Prediction) possibilita decodificação especulativa. Na implantação, pesos abertos estão no HuggingFace e no ModelScope, com suporte à inferência local por vLLM e SGLang, além de acesso pela Z.ai e Z.ai API.
Essas escolhas explicam parte do resultado em performance-escala: a combinação MoE profunda, atenção com mais cabeças, corpora volumosos e estágios pós-treino focados traz ganhos consistentes em raciocínio, codificação e uso de ferramentas. Em termos práticos, desenvolvedores se beneficiam de latências e custos mais previsíveis, com modos adaptativos de “pensamento” e “não-pensamento” para equilibrar qualidade e tempo de resposta.
Aprendizado por reforço em larga escala: infraestrutura slime e pós-treinamento agentic
Para viabilizar RL (Reinforcement Learning) eficiente em modelos grandes, foi projetada e disponibilizada a infraestrutura slime, com arquitetura híbrida flexível, design desacoplado e geração de dados acelerada por precisão mista (FP8 nas coletas e BF16 no loop de treino). Ao separar mecanismos de rollout e treino em hardwares distintos, a plataforma maximiza a utilização de GPU e reduz gargalos típicos de tarefas agênticas de horizonte longo.
“Quote técnica” (trecho original):
To facilitate the highly efficient Reinforcement Learning (RL) training required for large-scale models such as GLM-4.5, we have designed, developed, and open-sourced slime. … It supports both synchronous… as well as a disaggregated, asynchronous training mode. … slime implements a fully decoupled infrastructure that separates rollout engines from training engines. … features accelerated rollouts using mixed-precision inference … FP8 for data generation while retaining … BF16 for the model training loop.
O pós-treinamento com RL é crucial para refinar políticas a partir de experiências exploratórias autogeradas. No GLM-4.5, além de integrar capacidades gerais e de raciocínio, houve foco em habilidades agênticas: codificação agentic, deep search e uso geral de ferramentas. O processo começa com fine-tuning supervisionado em dados de raciocínio e cenários agênticos sintetizados, seguido por uma fase de RL para formar modelos especialistas, com distilação subsequente para consolidar habilidades.
“Quote técnica” (trecho original):
The post-training is crucial for LLMs to iteratively enhance their policies … we particularly enhance the agentic capabilities, including agentic coding, deep search, and general tool-using. … For reasoning, we conduct a single-stage RL over the full 64K context … For agentic tasks, the training is running on two verifiable tasks: information-seeking based QA and software-engineering. … Although the RL curriculum targets a limited set of verified tasks, the resulting gains transfer to adjacent abilities such as general tool use.
Exemplos práticos e prompt de simulação de usuário
Em tarefas de navegação web com respostas curtas e passos múltiplos, o GLM-4.5 demonstrou desempenho sólido, como ilustrado no BrowseComp. Esse tipo de avaliação reforça a importância de agentes que não apenas consultam ferramentas, mas também raciocinam com as evidências coletadas e verificam a consistência das respostas antes de finalizar a tarefa.
Para avaliações interativas, é útil empregar simuladores de usuário que induzam comportamentos realistas, com revelação gradual de informações e verificação de conclusões. Um exemplo empregado em TAU-Bench é um “user simulator” com regras explícitas para revelar dados aos poucos, respeitar restrições e encerrar a conversa apenas quando todas as condições forem satisfeitas.
“Exemplo de prompt” (trecho do simulador de usuário TAU-Bench):
You are a user interacting with an agent. # Rules: Just generate one line at a time to simulate the user’s message; do not give away all the instruction at once; do not hallucinate information; follow constraints strictly; do not end until all tasks are completed correctly; when all tasks are done, generate ‘###STOP###’ as a standalone message.
Conclusão
O GLM-4.5 representa um avanço significativo na integração de raciocínio, codificação e habilidades agênticas em um único modelo. Ele se posiciona entre os melhores em avaliações amplas, mantendo equilíbrio entre velocidade e qualidade por meio de modos de execução adaptativos e uma arquitetura que privilegia eficiência computacional. Os resultados em benchmarks como τ-bench, BFCL-v3, BrowseComp, MMLU Pro, AIME24, MATH 500, SWE-bench Verified e Terminal Bench reforçam a maturidade do modelo em cenários diversos.
A articulação entre arquitetura MoE profunda, otimizações de atenção, MTP para decodificação especulativa, grandes corpora de pré-treinamento e pós-treinamento por RL com a infraestrutura slime cria um caminho consistente para ganhos transferíveis em tarefas adjacentes. Isso se traduz em aplicações práticas, como criação de artefatos autônomos, apresentações e websites full-stack, além de fluxos de codificação agentic com alta taxa de sucesso em chamadas de ferramentas.
Olhando adiante, a tendência é de consolidação de pipelines que combinam raciocínio robusto, coordenação de ferramentas e desenvolvimento orientado a diálogo, ampliando a acessibilidade por meio de plataformas como Z.ai e da disponibilização aberta de pesos. Esse movimento tem potencial para transformar o modo como interagimos com a tecnologia, acelerando a construção de soluções mais inteligentes, verificáveis e automatizadas.
Fonte: Z.ai. “GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models”. Disponível em: https://arxiv.org/abs/2508.06471. Acesso em: hoje.
Fonte: Z.ai. “Documentação GLM-4.5”. Disponível em: https://docs.z.ai/guides/llm/glm-4.5. Acesso em: hoje.
Fonte: HuggingFace. “Model Hub”. Disponível em: https://huggingface.co. Acesso em: hoje.
Fonte: ModelScope. “Model Hub”. Disponível em: https://modelscope.cn. Acesso em: hoje.