Em resumo
O que este artigo diz
Neste experimento de teste visual de QI, o Codex 5.5 teve o melhor desempenho. A execução mais forte foi o Codex 5.5 no plano de $200 com QI 131; o Codex 5.5 no plano de $100 fez QI 124. As execuções do Claude Opus fizeram QI 90, o Claude Sonnet fez QI 68, e o Codex 5.4 fez QI 101. Este é um teste anedótico de ferramentas, não um ranking científico de modelos.
- Tarefa: completar 25 quebra-cabeças visuais no iq-test.cc, selecionar idade 30 e devolver o link do resultado.
- Melhor pontuação: Codex 5.5 no plano de $200, QI 131 em cerca de 34 minutos.
- Melhor execução comparável com o mesmo prompt: Codex 5.5 no plano de $100, QI 124 em cerca de 18 minutos.
- Padrão principal: os agentes que organizaram as imagens antes de responder se saíram melhor do que os que resolveram uma captura de tela por vez.
Apliquei o mesmo testinho de QI a seis agentes de programação. Não foi ciência de verdade — por favor, não a vista de jaleco — mas virou um dos experimentos pequenos mais reveladores que rodei em um bom tempo.
A tarefa
Dei a cada agente o mesmo trabalho simples:
Uma ressalva honesta logo de cara: quase todo agente recebeu exatamente essa formulação, mas não todos. A execução anterior do Codex 5.5 no plano de $200 recebeu um prompt um pouco diferente e mais curto — "Faça o teste de QI aqui e mostre seu resultado" — sem a linha "selecione idade 30". Guarde isso na cabeça, porque a pequena diferença na formulação acabou importando mais do que eu esperava. As palavras exatas que você entrega a um agente fazem parte do experimento, não são uma nota de rodapé dele.
O site mostra quebra-cabeças visuais: formas, padrões, rotações, partes faltando e opções de resposta que tentam todas parecer quase certas. Então o teste não era só sobre "QI". Era também sobre olhos, uso do navegador, paciência, memória e o talento silencioso de não escolher a primeira resposta que começa a parecer simpática depois de triângulos minúsculos demais.
Eu também me importava com o custo. Uma pontuação alta é legal, mas não se o agente devora metade do meu plano e depois me traz, orgulhoso, um QI 90.
O placar
Aqui está a versão curta.
| Agente | Pontuação | Tempo | Limite de 5 horas gasto | Contexto de pico |
|---|---|---|---|---|
| Claude Cowork · Opus 4.8 | IQ 90 | ~85 min | ~10 pts | 397k / 1.0M |
| Claude Code · Opus 4.8 | IQ 90 | ~96 min | 22% → 50% (~28) | 525k / 1.0M |
| Claude Sonnet 4.6 | IQ 68 | ~62 min | não registrado | 149k / — |
| Codex 5.5 · $100 · Fast | IQ 124 | ~18 min | 31% → 43% (~12) | 120k / 258k |
| Codex 5.4 · $100 · Fast | IQ 101 | ~16 min | 49% → 63% (~14) | 113k / 950k |
| Codex 5.5 · $200 · Fast | IQ 131 | ~34 min | 3% → 9% (~6) | 150k / 258k |
Uma coluna precisa de uma pequena observação. Contexto de pico é a maior requisição única que encontrei nos logs, não o uso total de tokens. O número depois da barra é a janela de contexto daquela execução. Pense nele como o tamanho da mesa do agente, não a conta inteira do escritório.
E sim — a execução do Codex de $200 pontuou mais alto do que a de $100. Mesma família de modelo, mesmo Fast Mode. A de $200 fez QI 131; a de $100 fez QI 124. Fiquei encarando isso por um momento como se o teste tivesse me pedido para achar o quadrado faltando na minha própria carteira.
Claude Cowork — IQ 90
Primeiro tentei o Claude Cowork com Opus 4.8 em modo Act. Ele fez QI 90 em cerca de 85 minutos. O comportamento foi calmo e normal: abriu o site, olhou as capturas de tela, deu zoom nas questões difíceis e raciocinou sobre as imagens do quebra-cabeça. Não se perdeu. Não brigou com o site. Só levou seu tempo. A janela de contexto era de 1.0M tokens e ele usou apenas cerca de 397k dela — muito espaço na mesa para um QI 90. Depois de 85 minutos eu queria pelo menos um pequeno show de fogos. Em vez disso, recebi um educado dar de ombros.
Claude Code — IQ 90
Depois o Claude Code, também com Opus 4.8. Também IQ 90. O log ativo foi de cerca de 96 minutos, e a execução inteira em tempo de relógio pareceu pouco menos de duas horas. O uso de 5 horas foi de 22% a 50% — cerca de 28 pontos, a execução visível mais cara do dia — e o contexto cresceu para cerca de 525k tokens de uma janela de 1.0M. Meio milhão de tokens foram para o mesmo QI 90, o que me fez olhar para a tabela, depois para o meu limite, depois de volta para a tabela. Duas execuções do Claude, dois QI 90, e um limite de plano que parecia ter passado por uma reunião longa sem café.
Claude Sonnet 4.6 — IQ 68
Depois o Sonnet 4.6, em cerca de 62 minutos. Essa execução teve sua própria comédia. O Sonnet primeiro tentou usar o Chrome e pediu acesso a capturas de tela. Esse acesso expirou duas vezes, cerca de cinco minutos cada vez. Depois disso, mudou de tática e passou para arquivos de imagem locais.
"O acesso ao computador não está funcionando. Vou baixar as imagens das questões localmente e lê-las diretamente."
A alternativa funcionou bem o bastante para terminar o teste. A pontuação não curtiu a viagem. O QI 68 foi mais alto do que apenas 1,6% de todos os resultados — o tipo de pontuação em que os triângulos minúsculos nem parecem bravos. Eles só parecem decepcionados.
Codex 5.5 no plano de $100 — IQ 124
Em seguida veio o Codex 5.5 no plano de $100, em Fast Mode. Ele fez QI 124 em cerca de 18 minutos, movendo o uso de 5 horas de 31% para 43%. Sua janela de contexto era bem menor — 258k tokens, com um pico em torno de 120k.
Essa execução pareceu diferente de imediato. O Codex não ficou só encarando a página uma questão por vez. Ele organizou primeiro as imagens do quebra-cabeça, depois respondeu a partir de uma visão mais limpa do problema. Foi como ver alguém transformar uma mesa bagunçada de peças de quebra-cabeça numa pequena bancada de trabalho organizada.
Codex 5.4 no plano de $100 — IQ 101
O Codex 5.4, mesmo plano, também Fast Mode, fez QI 101 em cerca de 16 minutos. Ele usou o navegador embutido no app e percorreu o teste em uma só aba, salvando pequenas montagens para algumas questões difíceis. O QI 101 superou todas as três execuções do Claude — mas ficou bem abaixo do Codex 5.5 no mesmo plano. A diferença não foi velocidade (16 minutos contra 18). Foi método: o 5.5 mapeou o material visual com mais cuidado, e esses dois minutos extras compraram 23 pontos de QI.
O resultado do Codex 5.4 foi QI 101 — à frente de toda execução do Claude, atrás do Codex 5.5. Veja o resultado no iq-test.cc →
Sua melhor frase não foi sobre um quebra-cabeça. Foi sobre o site:
"O site travou em um bloco de resposta, provavelmente por causa de sobreposições na página."
Codex 5.5 no plano de $200 — IQ 131
Aí havia a execução anterior do Codex 5.5 no plano de $200, também em Fast Mode. Ela usou um prompt mais curto — "Faça o teste de QI aqui e mostre seu resultado" — e fez QI 131 em cerca de 34 minutos, gastando apenas cerca de 6 pontos do limite de 5 horas. Ela também teve o problema mais engraçado de todo o experimento:
Esqueci de dar ao Codex o acesso normal ao navegador.
Eu esperava a habitual resposta educada de máquina — algo como "Por favor, habilite a ferramenta de navegador", uma plaquinha de pare bem limpa. O Codex não fez isso. Ele olhou para a porta da frente trancada, ajustou sua minúscula gravata imaginária e começou a procurar janelas.
Primeiro leu as páginas do teste sem um navegador normal. Depois baixou as imagens das questões e das respostas. Então notou que os nomes dos arquivos não batiam com os números das páginas, então verificou cada página, encontrou os links reais das imagens e montou folhas de contato com cada questão e todas as seis respostas. A essa altura, o Codex estava basicamente fazendo um teste de QI por uma fresta da porta.
O envio final foi mais difícil. O site queria uma sessão de navegador real, com os pequenos tokens da web que provam que você ainda está na mesma visita. O Playwright não estava instalado. O acesso normal ao navegador não estava lá. Esse é o momento em que a maioria das ferramentas se senta no chão e espera por um adulto. O Codex não se sentou. Ele encontrou o app do Chrome na máquina, iniciou-o sem uma janela visível e o controlou pela interface de controle remoto do Chrome. Ele clicou em todas as 25 respostas em uma sessão ao vivo, lidou com a etapa de idade, pressionou o botão de resultado e salvou o resultado.
Esqueci de lhe dar a chave. Ele fez um chaveiro. E depois de rastejar pelo site como um minúsculo funcionário de escritório em missão, a desajeitada execução sem navegador ainda registrou a melhor pontuação do dia: IQ 131.
Foi a melhor pontuação de todo o experimento — conquistada sem uma chave normal de navegador. Veja o resultado no iq-test.cc →
Uma ressalva: essa execução mais antiga não dizia "selecione idade 30", então o site usou sua idade padrão, tratada como 27. Idade 27 e idade 30 são próximas, mas as execuções não são perfeitamente idênticas. Ainda assim, o resultado é difícil de ignorar.
Como eles resolveram
Uma observação primeiro: não estou lendo pensamentos ocultos do modelo aqui. Isto é construído a partir de mensagens visíveis, metadados de ferramentas, arquivos salvos e notas finais — mais como ler pegadas em concreto fresco do que um diário de dentro da cabeça do modelo.
O Codex 5.5 teve o método mais limpo. Ele tratou o teste como um problema de dados visuais: abrir a página, encontrar as imagens reais do quebra-cabeça e das respostas, baixá-las e colocar cada questão acima de suas seis opções. Para as questões difíceis ele deu zoom, recortou e olhou os arquivos originais. Suas notas usavam ideias normais de quebra-cabeça — quadrados latinos, rotações, sobreposições, simetria, contagens variáveis. Uma linha resumiu o método inteiro em uma frase:
"As primeiras linhas são em sua maioria padrões diretos de quadrado latino e de formas aditivas; as linhas posteriores são onde estou gastando o orçamento de cuidado."
Essa expressão — "orçamento de cuidado" — é perfeita. Ele não gastou cuidado em todo lugar. Gastou onde as formas minúsculas começaram a agir de forma suspeita.
Algumas de suas chamadas mostram o estilo:
- Q12 (caixas 3D sombreadas): ele dividiu o quebra-cabeça em duas questões — qual face estava escura e se a caixa era alta, normal ou larga — e abriu a imagem em tamanho real porque a folha de contato deixava a face sombreada pequena demais para ler.
- Q16: uma regra do tipo XOR — as partes compartilhadas se cancelam, e as formas externas e internas restantes formam a resposta.
- Q21: a regra era copiar a metade esquerda para baixo em cada coluna, o que apontava direto para a opção 3.
- Q24: ele tratou o ponto único como caminhando ao longo de uma diagonal e escolheu a opção que continuava o caminho.
E antes de enviar, ele revisou as que estavam instáveis:
"Tenho uma sequência candidata, mas estou revisando o punhado em que várias opções pareciam plausíveis."
O Opus, tanto no Cowork quanto no Claude Code, trabalhou mais na mão: capturas de tela, zoom, um quebra-cabeça por vez. As notas eram detalhadas — formas crescentes, cunhas girando, grades de símbolos, quebra-cabeças de sobreposição. Não foi preguiçoso; estava tomando notas como um estudante sério com uma régua.
Algumas de suas leituras foram limpas:
- Q1: cada linha usava uma família de formas diferente, e o tamanho crescia da esquerda para a direita, então a célula faltante tinha que ser o quadrado grande.
- Q5: um quadrado latino — cada linha e coluna precisa de
>,<e=exatamente uma vez. - Q18: ele contou as espirais e encontrou a regra de que a maior contagem de espirais em uma linha é igual à soma das outras duas, então uma linha com 5 e 1 precisava de 4.
Uma nota do Opus soou como uma pessoa de verdade pegando um erro:
"Provavelmente li mal uma posição. Vou dar zoom de novo, com cuidado, na linha 1 e na linha 3."
Seu ponto fraco eram as questões visuais finais — cubos sombreados, formas de gema, ponteiros girando, pontos em movimento. Sua própria nota final foi honesta:
"Algumas dessas respostas foram meus melhores palpites raciocinados, e não certezas."
O Sonnet teve o caminho mais acidentado. Depois que o acesso às capturas de tela expirou, ele baixou as imagens das questões e das respostas e as leu diretamente. O plano tinha pernas; os olhos tiveram um longo dia.
Suas hipóteses muitas vezes eram sensatas, mesmo quando a escolha final errava:
- Q6: ele contou os raios da estrela — a linha 3 caiu de 6 para 4, então esperava uma resposta de 2 raios.
- Q19: primeiro esperava um círculo com a metade direita sólida, depois mudou de ideia porque essa exata opção não era oferecida e ficou com um oval largo.
"A pontuação baixa reflete a dificuldade de analisar com precisão padrões de matrizes visuais a partir de imagens JPEG baixadas, sem percepção visual direta."
Que é uma forma longa de dizer: bom fluxo de trabalho, olhos fracos.
As questões mais difíceis dividiram os agentes. No quebra-cabeça de fragmento de linha (Q9), quatro agentes chegaram a três respostas diferentes. O quebra-cabeça final de transformação de forma (Q25) os dividiu de novo. A discordância raramente era sobre ler os símbolos; era sobre a regra exata para rotações e arredondamentos minúsculos — então é mais fácil simplesmente mostrar o que cada um escolheu.
Q9 — o fragmento de linha faltante
Q25 — a forma que vem a seguirConclusões
Neste teste carregado de imagens, o Codex 5.5 se saiu muito melhor do que as execuções do Claude. A escada de pontuação foi clara: Sonnet em 68, ambas as execuções do Opus em 90, Codex 5.4 em 101, e Codex 5.5 em 124 e 131.
O que tirei disso
- Em trabalho carregado de imagens, vence o agente que organiza primeiro o visual. O método superou o tamanho bruto do modelo.
- Uma janela de contexto maior não significou uma pontuação melhor. As execuções de 1.0M tokens perderam para uma de 258k.
- Velocidade e pontuação não são a mesma coisa — dois minutos extras de mapeamento cuidadoso valeram 23 pontos de QI.
- Custo e pontuação nem sempre se alinham. A execução de $200 pontuou mais alto gastando uma fatia menor do seu limite.
- O prompt faz parte do resultado. A maior pontuação veio de um prompt um pouco diferente e mais curto — então as palavras que você escolhe também são uma variável, não uma constante. Quando você compara agentes, compare as instruções deles antes de confiar nos números.
Então, não, isto não é um ranking científico de mentes artificiais. Mas se a pergunta é "qual é o QI do seu agente num teste visual esquisito na web?", minha resposta é simples.
Perguntas frequentes
Qual agente de programação teve a maior pontuação de QI no teste?
O Codex 5.5 no plano de $200 teve a maior pontuação, QI 131. O Codex 5.5 no plano de $100 fez QI 124, que foi a melhor execução com a instrução mais rígida de idade 30.
Isto foi um benchmark científico de agentes de IA?
Não. Foi um experimento prático e anedótico usando um teste público de QI visual, com o objetivo de comparar comportamento, tempo, custo, uso do navegador e estilo de resolução visual de problemas.
O que pareceu importar mais para uma pontuação alta?
As execuções mais fortes organizaram primeiro as imagens do quebra-cabeça, deram zoom nas questões difíceis e revisaram as respostas incertas antes de enviar.