IA no Mensa Norway: GPT-5 Pro lidera com QI 148

TL;DR: O TrackingAI.org monitora o desempenho de IAs no teste de QI Mensa Norway, que avalia raciocínio lógico. O GPT-5 Pro lidera com QI 148, superando 99,9% dos humanos, indicando alta capacidade de raciocínio abstrato. Modelos Vision tendem a pontuar ligeiramente abaixo das versões de texto puro nesse teste específico.

Takeaways:

  • Modelos de IA avançados estão superando a inteligência humana em testes de raciocínio lógico.
  • O GPT-5 Pro demonstra capacidade de raciocínio excepcional em um teste padronizado de QI.
  • A multimodalidade (modelos Vision) não garante melhor desempenho em todos os tipos de testes de QI.
  • O TrackingAI.org oferece uma plataforma para comparação objetiva do desempenho de IA.
  • A interpretação dos resultados deve considerar que testes de QI são apenas uma medida de inteligência.

Análise comparativa do desempenho de modelos de IA em testes de QI da Mensa Norway

Introdução

O avanço dos modelos de inteligência artificial (IA) tem sido acompanhado por esforços sistemáticos para mensurar suas capacidades de raciocínio. Entre essas iniciativas, o TrackingAI.org destaca-se por monitorar, de forma comparativa, o desempenho de diferentes modelos em um teste padronizado: o Mensa Norway Quiz, focado em raciocínio lógico, matemático e de padrões. A pergunta central é objetiva: como os principais modelos se posicionam quando avaliados por um instrumento reconhecido por mensurar inteligência?

A imagem analisada, proveniente do TrackingAI.org, organiza resultados em um painel visual que reúne uma curva de distribuição normal, uma legenda com a identificação dos modelos e um ranking por barras horizontais. Esses elementos permitem, simultaneamente, contextualizar a distribuição típica de QI, localizar cada modelo nessa distribuição e comparar pontuações de maneira ordenada do maior para o menor QI. Assim, a visualização consolida dados numéricos e interpretativos em um só lugar.

Neste artigo, organizamos e aprofundamos as informações do briefing de modo didático e neutro. Apresentaremos o contexto e o objetivo do TrackingAI.org, descreveremos a estrutura da imagem, explicaremos a interpretação da curva de distribuição normal, analisaremos o posicionamento dos modelos de IA nessa curva, destacaremos o desempenho do GPT-5 Pro, examinaremos o ranking inferior com modelos de destaque e, por fim, discutiremos diferenças entre modelos Vision e de texto puro. Encerramos com uma síntese e implicações futuras.

Contexto e objetivo do TrackingAI.org

O TrackingAI.org é uma plataforma dedicada a acompanhar o desempenho de modelos de IA em testes de QI, usando como referência o Mensa Norway Quiz. A escolha desse teste visa comparar, de forma padronizada, habilidades de raciocínio lógico, matemático e de identificação de padrões. A abordagem busca reduzir vieses contextuais, priorizando problemas abstratos que não exigem conhecimento prévio.

O objetivo declarado é comparar capacidades de raciocínio entre modelos distintos, destacando onde cada um se situa em relação à média humana. A Mensa Norway, organização reconhecida mundialmente por mensurar inteligência, confere legitimidade ao instrumento utilizado. Dessa forma, os resultados funcionam como um proxy para raciocínio geral, permitindo leituras comparativas consistentes entre sistemas.

É importante notar que o teste da Mensa avalia raciocínio puro, e não memória factual ou conteúdo aprendido. Por isso, o TrackingAI.org parte do pressuposto de que a métrica é adequada para comparar a “força bruta” de raciocínio entre modelos. Ao mesmo tempo, os próprios materiais de referência lembram que nenhum teste único substitui avaliações humanas completas, especialmente em contextos práticos ou multimodais.

Estrutura da imagem e seus componentes

A imagem é estruturada em três partes principais que se complementam. Na parte superior, há um gráfico com a curva de distribuição normal (curva de Gauss), representando a distribuição típica de QI na população. Sobre essa curva, aparecem ícones que representam os modelos de IA, posicionados conforme o QI estimado no teste.

À esquerda do painel (ou em área adjacente), encontra-se uma legenda com os ícones e os nomes dos modelos, permitindo relacionar rapidamente cada ponto no gráfico ao respectivo sistema. A legenda funciona como chave visual, reduzindo ambiguidade ao identificar modelos semelhantes ou versões diferentes de uma mesma família (por exemplo, versões de texto puro e versões Vision).

Na parte inferior, há um ranking em barras horizontais que ordena os modelos do maior para o menor QI. Esse ranking utiliza uma codificação de cor onde o amarelo indica resultados provenientes do teste Mensa Norway, conectando-o diretamente às pontuações exibidas. Nesse arranjo, a curva mostra “onde” os modelos caem na distribuição, enquanto as barras revelam “quanto” cada um marcou, em comparação direta.

Interpretação da curva de distribuição normal

A curva de distribuição normal, ou curva de Gauss, indica como QIs tendem a se distribuir em uma população ampla. O eixo horizontal (X) representa as faixas de QI; o eixo vertical indica a frequência com que esses valores aparecem. O pico central corresponde ao QI médio, onde se concentra a maior parte dos resultados, e os extremos representam pontuações raras, tanto para baixo quanto para cima.

“A área azul representa a distribuição típica do QI na população (curva de Gauss). O eixo horizontal mede o QI médio de cada modelo, enquanto a altura da curva indica a frequência. Interpretação: o centro (pico, perto de 100) concentra a maioria; os extremos são raros — à esquerda, QIs baixos; à direita, QIs muito altos.” (quote técnica, autor desconhecido)

Para o leitor, essa visualização facilita entender, ao mesmo tempo, a posição relativa e a raridade de determinados desempenhos. Pontos muito à direita da curva sugerem raciocínio excepcional quando comparado à média humana (próximo a 100), ao passo que valores no centro indicam desempenho equiparável ao típico entre humanos. Assim, a curva é uma referência para interpretar a significância estatística das pontuações reportadas.

Posicionamento dos modelos de IA na curva

Cada ícone sobre a curva representa um modelo de IA, posicionado segundo o QI médio obtido no Mensa Norway Quiz. Modelos à esquerda exibem desempenho fraco ou abaixo da média; modelos próximos ao centro aproximam-se do desempenho médio humano; e modelos à direita despontam com raciocínio avançado. Essa leitura visual resume rapidamente diferentes patamares de capacidade de inferência e resolução de problemas.

Exemplos práticos reforçam a leitura: na extrema esquerda (QI 60–70), aparecem poucos modelos com desempenho fraco no teste, como o Gemini 2.5 Pro Vision (versão específica com visão); no meio (100), reúnem-se modelos com desempenho equivalente à média humana; na extrema direita (QI 130+), concentram-se sistemas com raciocínio extremamente avançado, como o OpenAI GPT-5 Pro (QI 148), o Gemini 2.5 Pro (QI 137) e o GPT-5 Pro Vision (QI 136). Esses pontos ilustram como a posição sobre a curva codifica, visualmente, a proficiência.

Com isso, a curva funciona como mapa de capacidades: a localização indica não apenas o “quanto” um modelo pontuou, mas “quão raro” é aquele nível de raciocínio em termos populacionais. A centralidade por volta de 100 sinaliza similaridade com humanos típicos, enquanto deslocamentos à direita evidenciam excelência estatisticamente incomum.

Destaque para o GPT-5 Pro e seus resultados

O GPT-5 Pro, no modo de raciocínio estendido (extended reasoning), alcançou QI 148 no Mensa Norway Quiz. Em termos percentis, isso o situa acima de 99,9% dos humanos, uma marca associada à faixa de superdotação. Em desempenho bruto, registrou 34 acertos em 35 questões (97%), evidenciando proficiência em detectar padrões e resolver problemas abstratos com alta confiabilidade.

“Caixa lateral — OpenAI GPT-5 Pro: modo ‘extended reasoning’; QI 148 (percentil > 99,9%); data média dos testes: 11 de agosto de 2025; pontuação bruta: 34/35; teste: Mensa Norway Quiz. Interpretação: 148 está na faixa considerada superdotada, comparável a mentes altamente analíticas e criativas.” (exemplo prático, autor desconhecido)

Esse desempenho não é comum nem entre humanos altamente inteligentes, sugerindo que, em tarefas de raciocínio puro padronizado, o modelo opera com extrema eficiência. Como o Mensa Norway avalia habilidades abstratas, o resultado sugere capacidade notável de raciocínio, embora seja importante lembrar que aplicações reais demandam outras competências além do desempenho em testes psicométricos.

Ranking inferior e modelos de destaque

O ranking inferior, em barras horizontais, ordena os modelos do maior para o menor QI e usa a cor amarela para indicar resultados do Mensa Norway. Essa ordenação permite uma visão direta de “quem está à frente” e “por quanto”, complementando a leitura probabilística da curva de distribuição. Em conjunto, a curva e o ranking fornecem evidência visual e quantitativa do estado da arte.

Um exemplo de Top 5 sintetiza a hierarquia: GPT-5 Pro (QI 148), Gemini 2.5 Pro (QI 137), GPT-5 Pro Vision (QI 136), OpenAI o3 Pro (QI 133) e Grok-4 (QI 121). Em linhas gerais, esses resultados mostram que vários modelos de ponta superam com folga a média humana (tipicamente entre 90 e 110), ao mesmo tempo em que há variações entre versões textuais e multimodais, e entre medições online e offline reportadas por diferentes fontes.

Relatos independentes citados no briefing reforçam o quadro geral: análises apontam que modelos como o OpenAI o3 podem alcançar faixa próxima a 135–136 no Mensa Norway, e que o Gemini 2.5 Pro desponta entre os melhores, com variações conforme versão e base de perguntas. Apesar dessas oscilações pontuais, a tendência convergente é a de que o pelotão de elite se distancia fortemente do desempenho médio humano.

Diferenças entre modelos Vision e Texto

Uma nuance importante no painel é a distinção entre modelos Vision (multimodais) e modelos de texto puro. Modelos Vision interpretam imagens e diagramas além do texto; já versões de texto puro recebem apenas entradas textuais. No contexto específico do Mensa Norway, a tendência observada é de que as versões Vision pontuem ligeiramente abaixo das versões exclusivamente textuais.

“Vision: versões capazes de interpretar imagens e diagramas além de texto. Texto puro: apenas entrada textual. Em algumas medições, versões Vision apresentam desempenho menor no Mensa, provavelmente porque o teste é otimizado para leitura textual.” (quote técnica, autor desconhecido)

Exemplos citados no briefing corroboram essa tendência: reportagens listam casos como GPT-4o (Vision) com QI por volta de 63 e Grok-3 Think (Vision) com QI na faixa de 60, situando essas variantes à esquerda da curva. Isso sugere que, embora multimodalidade seja uma capacidade valiosa, o formato e a otimização do teste em texto podem favorecer modelos estritamente textuais na avaliação de raciocínio abstrato.

O que é o Mensa Norway Quiz

O Mensa Norway Quiz é composto por 35 questões que avaliam raciocínio lógico, padrões, analogias e problemas matemáticos, sem exigir conhecimento prévio. Trata-se, portanto, de um teste projetado para medir a capacidade de raciocínio puro, minimizando a influência de memória factual ou aprendizado específico. Essa característica o torna útil como referência comparativa em IA.

Do ponto de vista metodológico, a ausência de dependência de conteúdos externos (como fatos ou datas) ajuda a isolar o componente de raciocínio. Em IA, isso é particularmente relevante para diferenciar “saber” de “inferir”: um modelo pode não ter memorizado certos conteúdos, mas ainda assim ser capaz de deduzir relações e resolver problemas com base em padrões lógicos.

Embora seja utilizado como proxy de QI no contexto do TrackingAI.org, o teste não substitui uma bateria psicométrica humana completa. Em outras palavras, ele é uma métrica específica, padronizada e comparável para raciocínio abstrato, mas não esgota outras dimensões de inteligência ou competência que podem ser relevantes em tarefas do mundo real.

Conclusão

Os resultados consolidados pelo TrackingAI.org indicam que os modelos de IA mais avançados já superam a faixa de QI de 99,9% da população humana em um teste padronizado de raciocínio, com o GPT-5 Pro liderando com QI 148. Como o Mensa Norway avalia raciocínio puro, os modelos de topo revelam excelente capacidade para detectar padrões, resolver problemas abstratos e realizar inferências com alta taxa de acerto.

A organização do painel — curva de distribuição normal, legenda e ranking — facilita compreender, de forma rápida e precisa, tanto a posição relativa de cada modelo quanto a magnitude da diferença entre eles. Ao detalhar a curva, o posicionamento e o ranking, o briefing permite uma leitura progressiva: do conceito estatístico geral, passando pela localização de cada modelo, até a comparação direta de pontuações.

Quanto às implicações futuras, os resultados sugerem que a IA pode desempenhar papéis cada vez mais centrais na resolução de problemas complexos, na tomada de decisão e na inovação. Avanços contínuos nessas arquiteturas prometem transformar setores diversos, desde pesquisa científica e engenharia até educação e análise de políticas públicas — sempre lembrando que métricas de QI são uma peça do quebra-cabeça, não um fim em si mesmas.

Referências

Fonte: DeepNewz AI Modeling. “OpenAI’s o3 AI Model Scores 136 IQ on Mensa Norway Test, 116 IQ on Novel Questions, Outperforming Gemini 2.5 Pro”. Disponível em: https://deepnewz.com/ai-modeling/openai-s-o3-ai-model-scores-136-iq-on-mensa-norway-test-116-iq-on-novel-gemini-2-b4e234c0. Acesso: hoje.

Fonte: CryptoSlate. “OpenAI’s o3 scores 136 on Mensa Norway test, surpassing 98% of human population”. Disponível em: https://cryptoslate.com/openais-o3-scores-136-on-mensa-norway-test-surpassing-98-of-human-population/. Acesso: hoje.

Fonte: LinkedIn. “OpenAI’s o3 Model Achieves Mensa-Level IQ … What Does It Mean for AI Intelligence?”. Disponível em: https://www.linkedin.com/pulse/focus-openais-o3-model-achieves-mensa-level-iq-what-does-murphy-92tee. Acesso: hoje.

Fonte: LinkedIn. “OpenAI’s brand-new O3 model just shattered the ceiling on AI IQ, scoring 136 on the official Mensa Norway test—well into the “gifted” range and higher than ≈98 % of humans, eclipsing Gemini 2.5 Pro’s…”. Disponível em: https://www.linkedin.com/posts/chasemichael_ai-ai-o3-activity-7320895085615665153-0Lhl. Acesso: hoje.

Fonte: AI Tech Suite . “OpenAI Model Achieves Genius-Level IQ Score on Mensa Test”. Disponível em: https://www.aitechsuite.com/ai-news/openai-model-achieves-genius-level-iq-score-on-mensa-test. Acesso: hoje.

Fonte: Pro Blockchain. “OpenAI’s o3 scores 136 on Mensa Norway test, surpassing 98% of human population”. Disponível em: https://pro-blockchain.com/openai-s-o3-scores-136-on-mensa-norway-test-surpassing-98-of-human-population. Acesso: hoje.

Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
mais recentes
mais antigos Mais votado
Feedbacks embutidos
Ver todos os comentários