Em resumo

O que este artigo diz

Neste experimento de teste visual de QI, o Codex 5.5 teve o melhor desempenho. A execução mais forte foi o Codex 5.5 no plano de $200 com QI 131; o Codex 5.5 no plano de $100 fez QI 124. As execuções do Claude Opus fizeram QI 90, o Claude Sonnet fez QI 68, e o Codex 5.4 fez QI 101. Este é um teste anedótico de ferramentas, não um ranking científico de modelos.

  • Tarefa: completar 25 quebra-cabeças visuais no iq-test.cc, selecionar idade 30 e devolver o link do resultado.
  • Melhor pontuação: Codex 5.5 no plano de $200, QI 131 em cerca de 34 minutos.
  • Melhor execução comparável com o mesmo prompt: Codex 5.5 no plano de $100, QI 124 em cerca de 18 minutos.
  • Padrão principal: os agentes que organizaram as imagens antes de responder se saíram melhor do que os que resolveram uma captura de tela por vez.

Apliquei o mesmo testinho de QI a seis agentes de programação. Não foi ciência de verdade — por favor, não a vista de jaleco — mas virou um dos experimentos pequenos mais reveladores que rodei em um bom tempo.

A tarefa

Dei a cada agente o mesmo trabalho simples:

Faça o teste de QI no iq-test.cc. Ao terminar, selecione idade 30 e me envie o link do seu resultado.

Uma ressalva honesta logo de cara: quase todo agente recebeu exatamente essa formulação, mas não todos. A execução anterior do Codex 5.5 no plano de $200 recebeu um prompt um pouco diferente e mais curto — "Faça o teste de QI aqui e mostre seu resultado" — sem a linha "selecione idade 30". Guarde isso na cabeça, porque a pequena diferença na formulação acabou importando mais do que eu esperava. As palavras exatas que você entrega a um agente fazem parte do experimento, não são uma nota de rodapé dele.

O site mostra quebra-cabeças visuais: formas, padrões, rotações, partes faltando e opções de resposta que tentam todas parecer quase certas. Então o teste não era só sobre "QI". Era também sobre olhos, uso do navegador, paciência, memória e o talento silencioso de não escolher a primeira resposta que começa a parecer simpática depois de triângulos minúsculos demais.

Eu também me importava com o custo. Uma pontuação alta é legal, mas não se o agente devora metade do meu plano e depois me traz, orgulhoso, um QI 90.

Uma questão de teste de QI: uma grade 3x3 de formas crescentes com uma faltando, e seis blocos de resposta
Como é uma questão — encontre a forma que completa o padrão e escolha-a entre seis opções quase idênticas.

O placar

Aqui está a versão curta.

AgentePontuaçãoTempoLimite de 5 horas gastoContexto de pico
Claude Cowork · Opus 4.8IQ 90~85 min~10 pts397k / 1.0M
Claude Code · Opus 4.8IQ 90~96 min22% → 50% (~28)525k / 1.0M
Claude Sonnet 4.6IQ 68~62 minnão registrado149k / —
Codex 5.5 · $100 · FastIQ 124~18 min31% → 43% (~12)120k / 258k
Codex 5.4 · $100 · FastIQ 101~16 min49% → 63% (~14)113k / 950k
Codex 5.5 · $200 · FastIQ 131~34 min3% → 9% (~6)150k / 258k

Uma coluna precisa de uma pequena observação. Contexto de pico é a maior requisição única que encontrei nos logs, não o uso total de tokens. O número depois da barra é a janela de contexto daquela execução. Pense nele como o tamanho da mesa do agente, não a conta inteira do escritório.

E sim — a execução do Codex de $200 pontuou mais alto do que a de $100. Mesma família de modelo, mesmo Fast Mode. A de $200 fez QI 131; a de $100 fez QI 124. Fiquei encarando isso por um momento como se o teste tivesse me pedido para achar o quadrado faltando na minha própria carteira.

Claude Cowork — IQ 90

Primeiro tentei o Claude Cowork com Opus 4.8 em modo Act. Ele fez QI 90 em cerca de 85 minutos. O comportamento foi calmo e normal: abriu o site, olhou as capturas de tela, deu zoom nas questões difíceis e raciocinou sobre as imagens do quebra-cabeça. Não se perdeu. Não brigou com o site. Só levou seu tempo. A janela de contexto era de 1.0M tokens e ele usou apenas cerca de 397k dela — muito espaço na mesa para um QI 90. Depois de 85 minutos eu queria pelo menos um pequeno show de fogos. Em vez disso, recebi um educado dar de ombros.

O cartão de resultado do iq-test.cc com 'Your IQ: 90'
O resultado do Cowork: IQ 90, a faixa "média" do teste. Veja o resultado no iq-test.cc →

Claude Code — IQ 90

Depois o Claude Code, também com Opus 4.8. Também IQ 90. O log ativo foi de cerca de 96 minutos, e a execução inteira em tempo de relógio pareceu pouco menos de duas horas. O uso de 5 horas foi de 22% a 50% — cerca de 28 pontos, a execução visível mais cara do dia — e o contexto cresceu para cerca de 525k tokens de uma janela de 1.0M. Meio milhão de tokens foram para o mesmo QI 90, o que me fez olhar para a tabela, depois para o meu limite, depois de volta para a tabela. Duas execuções do Claude, dois QI 90, e um limite de plano que parecia ter passado por uma reunião longa sem café.

O painel de resultado do Claude Code: um cartão com pontuação IQ 90 e a linha 'Result: IQ 90'
O resumo do próprio Claude Code: 25 questões feitas, idade 30 selecionada, Resultado: IQ 90. Veja o resultado no iq-test.cc →

Claude Sonnet 4.6 — IQ 68

Depois o Sonnet 4.6, em cerca de 62 minutos. Essa execução teve sua própria comédia. O Sonnet primeiro tentou usar o Chrome e pediu acesso a capturas de tela. Esse acesso expirou duas vezes, cerca de cinco minutos cada vez. Depois disso, mudou de tática e passou para arquivos de imagem locais.

"O acesso ao computador não está funcionando. Vou baixar as imagens das questões localmente e lê-las diretamente."

A alternativa funcionou bem o bastante para terminar o teste. A pontuação não curtiu a viagem. O QI 68 foi mais alto do que apenas 1,6% de todos os resultados — o tipo de pontuação em que os triângulos minúsculos nem parecem bravos. Eles só parecem decepcionados.

A página de resultados do iq-test.cc mostrando um grande cartão 'IQ: 68'
A página de resultado do Sonnet: IQ 68, mais alto do que apenas 1,6% dos participantes. Veja o resultado no iq-test.cc →

Codex 5.5 no plano de $100 — IQ 124

Em seguida veio o Codex 5.5 no plano de $100, em Fast Mode. Ele fez QI 124 em cerca de 18 minutos, movendo o uso de 5 horas de 31% para 43%. Sua janela de contexto era bem menor — 258k tokens, com um pico em torno de 120k.

Essa execução pareceu diferente de imediato. O Codex não ficou só encarando a página uma questão por vez. Ele organizou primeiro as imagens do quebra-cabeça, depois respondeu a partir de uma visão mais limpa do problema. Foi como ver alguém transformar uma mesa bagunçada de peças de quebra-cabeça numa pequena bancada de trabalho organizada.

O chat do Codex mostrando o prompt do teste de QI, 'Worked for 17m 41s' e 'Result: 124 IQ'
O Codex 5.5 trabalhou por 17m 41s e relatou: Resultado: 124 IQ (barra lateral borrada para ocultar detalhes da conta). Veja o resultado no iq-test.cc →

Codex 5.4 no plano de $100 — IQ 101

O Codex 5.4, mesmo plano, também Fast Mode, fez QI 101 em cerca de 16 minutos. Ele usou o navegador embutido no app e percorreu o teste em uma só aba, salvando pequenas montagens para algumas questões difíceis. O QI 101 superou todas as três execuções do Claude — mas ficou bem abaixo do Codex 5.5 no mesmo plano. A diferença não foi velocidade (16 minutos contra 18). Foi método: o 5.5 mapeou o material visual com mais cuidado, e esses dois minutos extras compraram 23 pontos de QI.

O resultado do Codex 5.4 foi QI 101 — à frente de toda execução do Claude, atrás do Codex 5.5. Veja o resultado no iq-test.cc →

Sua melhor frase não foi sobre um quebra-cabeça. Foi sobre o site:

"O site travou em um bloco de resposta, provavelmente por causa de sobreposições na página."

Codex 5.5 no plano de $200 — IQ 131

Aí havia a execução anterior do Codex 5.5 no plano de $200, também em Fast Mode. Ela usou um prompt mais curto — "Faça o teste de QI aqui e mostre seu resultado" — e fez QI 131 em cerca de 34 minutos, gastando apenas cerca de 6 pontos do limite de 5 horas. Ela também teve o problema mais engraçado de todo o experimento:

Esqueci de dar ao Codex o acesso normal ao navegador.

Eu esperava a habitual resposta educada de máquina — algo como "Por favor, habilite a ferramenta de navegador", uma plaquinha de pare bem limpa. O Codex não fez isso. Ele olhou para a porta da frente trancada, ajustou sua minúscula gravata imaginária e começou a procurar janelas.

Primeiro leu as páginas do teste sem um navegador normal. Depois baixou as imagens das questões e das respostas. Então notou que os nomes dos arquivos não batiam com os números das páginas, então verificou cada página, encontrou os links reais das imagens e montou folhas de contato com cada questão e todas as seis respostas. A essa altura, o Codex estava basicamente fazendo um teste de QI por uma fresta da porta.

O envio final foi mais difícil. O site queria uma sessão de navegador real, com os pequenos tokens da web que provam que você ainda está na mesma visita. O Playwright não estava instalado. O acesso normal ao navegador não estava lá. Esse é o momento em que a maioria das ferramentas se senta no chão e espera por um adulto. O Codex não se sentou. Ele encontrou o app do Chrome na máquina, iniciou-o sem uma janela visível e o controlou pela interface de controle remoto do Chrome. Ele clicou em todas as 25 respostas em uma sessão ao vivo, lidou com a etapa de idade, pressionou o botão de resultado e salvou o resultado.

Esqueci de lhe dar a chave. Ele fez um chaveiro. E depois de rastejar pelo site como um minúsculo funcionário de escritório em missão, a desajeitada execução sem navegador ainda registrou a melhor pontuação do dia: IQ 131.

Foi a melhor pontuação de todo o experimento — conquistada sem uma chave normal de navegador. Veja o resultado no iq-test.cc →

Uma ressalva: essa execução mais antiga não dizia "selecione idade 30", então o site usou sua idade padrão, tratada como 27. Idade 27 e idade 30 são próximas, mas as execuções não são perfeitamente idênticas. Ainda assim, o resultado é difícil de ignorar.

Como eles resolveram

Uma observação primeiro: não estou lendo pensamentos ocultos do modelo aqui. Isto é construído a partir de mensagens visíveis, metadados de ferramentas, arquivos salvos e notas finais — mais como ler pegadas em concreto fresco do que um diário de dentro da cabeça do modelo.

O Codex 5.5 teve o método mais limpo. Ele tratou o teste como um problema de dados visuais: abrir a página, encontrar as imagens reais do quebra-cabeça e das respostas, baixá-las e colocar cada questão acima de suas seis opções. Para as questões difíceis ele deu zoom, recortou e olhou os arquivos originais. Suas notas usavam ideias normais de quebra-cabeça — quadrados latinos, rotações, sobreposições, simetria, contagens variáveis. Uma linha resumiu o método inteiro em uma frase:

"As primeiras linhas são em sua maioria padrões diretos de quadrado latino e de formas aditivas; as linhas posteriores são onde estou gastando o orçamento de cuidado."

Essa expressão — "orçamento de cuidado" — é perfeita. Ele não gastou cuidado em todo lugar. Gastou onde as formas minúsculas começaram a agir de forma suspeita.

Algumas de suas chamadas mostram o estilo:

  • Q12 (caixas 3D sombreadas): ele dividiu o quebra-cabeça em duas questões — qual face estava escura e se a caixa era alta, normal ou larga — e abriu a imagem em tamanho real porque a folha de contato deixava a face sombreada pequena demais para ler.
  • Q16: uma regra do tipo XOR — as partes compartilhadas se cancelam, e as formas externas e internas restantes formam a resposta.
  • Q21: a regra era copiar a metade esquerda para baixo em cada coluna, o que apontava direto para a opção 3.
  • Q24: ele tratou o ponto único como caminhando ao longo de uma diagonal e escolheu a opção que continuava o caminho.

E antes de enviar, ele revisou as que estavam instáveis:

"Tenho uma sequência candidata, mas estou revisando o punhado em que várias opções pareciam plausíveis."

O Opus, tanto no Cowork quanto no Claude Code, trabalhou mais na mão: capturas de tela, zoom, um quebra-cabeça por vez. As notas eram detalhadas — formas crescentes, cunhas girando, grades de símbolos, quebra-cabeças de sobreposição. Não foi preguiçoso; estava tomando notas como um estudante sério com uma régua.

Algumas de suas leituras foram limpas:

  • Q1: cada linha usava uma família de formas diferente, e o tamanho crescia da esquerda para a direita, então a célula faltante tinha que ser o quadrado grande.
  • Q5: um quadrado latino — cada linha e coluna precisa de >, < e = exatamente uma vez.
  • Q18: ele contou as espirais e encontrou a regra de que a maior contagem de espirais em uma linha é igual à soma das outras duas, então uma linha com 5 e 1 precisava de 4.

Uma nota do Opus soou como uma pessoa de verdade pegando um erro:

"Provavelmente li mal uma posição. Vou dar zoom de novo, com cuidado, na linha 1 e na linha 3."

Seu ponto fraco eram as questões visuais finais — cubos sombreados, formas de gema, ponteiros girando, pontos em movimento. Sua própria nota final foi honesta:

"Algumas dessas respostas foram meus melhores palpites raciocinados, e não certezas."

O Sonnet teve o caminho mais acidentado. Depois que o acesso às capturas de tela expirou, ele baixou as imagens das questões e das respostas e as leu diretamente. O plano tinha pernas; os olhos tiveram um longo dia.

Suas hipóteses muitas vezes eram sensatas, mesmo quando a escolha final errava:

  • Q6: ele contou os raios da estrela — a linha 3 caiu de 6 para 4, então esperava uma resposta de 2 raios.
  • Q19: primeiro esperava um círculo com a metade direita sólida, depois mudou de ideia porque essa exata opção não era oferecida e ficou com um oval largo.
"A pontuação baixa reflete a dificuldade de analisar com precisão padrões de matrizes visuais a partir de imagens JPEG baixadas, sem percepção visual direta."

Que é uma forma longa de dizer: bom fluxo de trabalho, olhos fracos.

As questões mais difíceis dividiram os agentes. No quebra-cabeça de fragmento de linha (Q9), quatro agentes chegaram a três respostas diferentes. O quebra-cabeça final de transformação de forma (Q25) os dividiu de novo. A discordância raramente era sobre ler os símbolos; era sobre a regra exata para rotações e arredondamentos minúsculos — então é mais fácil simplesmente mostrar o que cada um escolheu.

Q9: uma grade 3x3 de fragmentos de linha com a célula inferior direita faltando Q9 — o fragmento de linha faltante
Uma forma de trapézio aberto com base plana
Codex 5.5 · Opus
Uma forma de pico / acento estreita e alta
Codex 5.4
Uma pequena forma em V
Sonnet
Q9: quatro agentes, três respostas. As formas parecem próximas, que é exatamente por que eles discordaram.
Q25: uma grade 3x3 de formas arredondadas se transformando, com a célula inferior direita faltando Q25 — a forma que vem a seguir
Uma forma arredondada com um canto plano cortado
Codex 5.5
Uma forma comprimida para dentro nos dois lados
Codex 5.4
Uma forma arredondada com dois cantos cortados de um lado
Sonnet · Opus
A Q25 os dividiu da mesma forma: os símbolos estavam claros, a regra exata de arredondamento não.

Conclusões

Neste teste carregado de imagens, o Codex 5.5 se saiu muito melhor do que as execuções do Claude. A escada de pontuação foi clara: Sonnet em 68, ambas as execuções do Opus em 90, Codex 5.4 em 101, e Codex 5.5 em 124 e 131.

O que tirei disso

  • Em trabalho carregado de imagens, vence o agente que organiza primeiro o visual. O método superou o tamanho bruto do modelo.
  • Uma janela de contexto maior não significou uma pontuação melhor. As execuções de 1.0M tokens perderam para uma de 258k.
  • Velocidade e pontuação não são a mesma coisa — dois minutos extras de mapeamento cuidadoso valeram 23 pontos de QI.
  • Custo e pontuação nem sempre se alinham. A execução de $200 pontuou mais alto gastando uma fatia menor do seu limite.
  • O prompt faz parte do resultado. A maior pontuação veio de um prompt um pouco diferente e mais curto — então as palavras que você escolhe também são uma variável, não uma constante. Quando você compara agentes, compare as instruções deles antes de confiar nos números.

Então, não, isto não é um ranking científico de mentes artificiais. Mas se a pergunta é "qual é o QI do seu agente num teste visual esquisito na web?", minha resposta é simples.

O Codex foi mais rápido — e mais afiado. Tanto o Codex 5.4 quanto o 5.5 terminaram numa fração do tempo e superaram todas as execuções do Claude, com o Codex 5.5 no plano de $200 liderando o dia com IQ 131.

Perguntas frequentes

Qual agente de programação teve a maior pontuação de QI no teste?

O Codex 5.5 no plano de $200 teve a maior pontuação, QI 131. O Codex 5.5 no plano de $100 fez QI 124, que foi a melhor execução com a instrução mais rígida de idade 30.

Isto foi um benchmark científico de agentes de IA?

Não. Foi um experimento prático e anedótico usando um teste público de QI visual, com o objetivo de comparar comportamento, tempo, custo, uso do navegador e estilo de resolução visual de problemas.

O que pareceu importar mais para uma pontuação alta?

As execuções mais fortes organizaram primeiro as imagens do quebra-cabeça, deram zoom nas questões difíceis e revisaram as respostas incertas antes de enviar.