Qual é o QI do seu agente?

Q: Qual agente de programação teve a maior pontuação de QI no teste?

O Codex 5.5 no plano de $200 teve a maior pontuação, QI 131. O Codex 5.5 no plano de $100 fez QI 124, que foi a melhor execução com a instrução mais rígida de idade 30.

Q: Isto foi um benchmark científico de agentes de IA?

Não. Foi um experimento prático e anedótico usando um teste público de QI visual, com o objetivo de comparar comportamento, tempo, custo, uso do navegador e estilo de resolução visual de problemas.

Q: O que pareceu importar mais para uma pontuação alta?

As execuções mais fortes organizaram primeiro as imagens do quebra-cabeça, deram zoom nas questões difíceis e revisaram as respostas incertas antes de enviar.

Em resumo

O que este artigo diz

Neste experimento de teste visual de QI, o Codex 5.5 teve o melhor desempenho. A execução mais forte foi o Codex 5.5 no plano de $200 com QI 131; o Codex 5.5 no plano de $100 fez QI 124. As execuções do Claude Opus fizeram QI 90, o Claude Sonnet fez QI 68, e o Codex 5.4 fez QI 101. Este é um teste anedótico de ferramentas, não um ranking científico de modelos.

Tarefa: completar 25 quebra-cabeças visuais no iq-test.cc, selecionar idade 30 e devolver o link do resultado.
Melhor pontuação: Codex 5.5 no plano de $200, QI 131 em cerca de 34 minutos.
Melhor execução comparável com o mesmo prompt: Codex 5.5 no plano de $100, QI 124 em cerca de 18 minutos.
Padrão principal: os agentes que organizaram as imagens antes de responder se saíram melhor do que os que resolveram uma captura de tela por vez.

Apliquei o mesmo testinho de QI a seis agentes de programação. Não foi ciência de verdade — por favor, não a vista de jaleco — mas virou um dos experimentos pequenos mais reveladores que rodei em um bom tempo.

A tarefa

Dei a cada agente o mesmo trabalho simples:

Faça o teste de QI no iq-test.cc. Ao terminar, selecione idade 30 e me envie o link do seu resultado.

Uma ressalva honesta logo de cara: quase todo agente recebeu exatamente essa formulação, mas não todos. A execução anterior do Codex 5.5 no plano de $200 recebeu um prompt um pouco diferente e mais curto — "Faça o teste de QI aqui e mostre seu resultado" — sem a linha "selecione idade 30". Guarde isso na cabeça, porque a pequena diferença na formulação acabou importando mais do que eu esperava. As palavras exatas que você entrega a um agente fazem parte do experimento, não são uma nota de rodapé dele.

O site mostra quebra-cabeças visuais: formas, padrões, rotações, partes faltando e opções de resposta que tentam todas parecer quase certas. Então o teste não era só sobre "QI". Era também sobre olhos, uso do navegador, paciência, memória e o talento silencioso de não escolher a primeira resposta que começa a parecer simpática depois de triângulos minúsculos demais.

Eu também me importava com o custo. Uma pontuação alta é legal, mas não se o agente devora metade do meu plano e depois me traz, orgulhoso, um QI 90.

Uma questão de teste de QI: uma grade 3x3 de formas crescentes com uma faltando, e seis blocos de resposta — Como é uma questão — encontre a forma que completa o padrão e escolha-a entre seis opções quase idênticas.

O placar

Aqui está a versão curta.

Agente	Pontuação	Tempo	Limite de 5 horas gasto	Contexto de pico
Claude Cowork · Opus 4.8	IQ 90	~85 min	~10 pts	397k / 1.0M
Claude Code · Opus 4.8	IQ 90	~96 min	22% → 50% (~28)	525k / 1.0M
Claude Sonnet 4.6	IQ 68	~62 min	não registrado	149k / —
Codex 5.5 · $100 · Fast	IQ 124	~18 min	31% → 43% (~12)	120k / 258k
Codex 5.4 · $100 · Fast	IQ 101	~16 min	49% → 63% (~14)	113k / 950k
Codex 5.5 · $200 · Fast	IQ 131	~34 min	3% → 9% (~6)	150k / 258k

Uma coluna precisa de uma pequena observação. Contexto de pico é a maior requisição única que encontrei nos logs, não o uso total de tokens. O número depois da barra é a janela de contexto daquela execução. Pense nele como o tamanho da mesa do agente, não a conta inteira do escritório.

E sim — a execução do Codex de $200 pontuou mais alto do que a de $100. Mesma família de modelo, mesmo Fast Mode. A de $200 fez QI 131; a de $100 fez QI 124. Fiquei encarando isso por um momento como se o teste tivesse me pedido para achar o quadrado faltando na minha própria carteira.

Claude Cowork — IQ 90

Primeiro tentei o Claude Cowork com Opus 4.8 em modo Act. Ele fez QI 90 em cerca de 85 minutos. O comportamento foi calmo e normal: abriu o site, olhou as capturas de tela, deu zoom nas questões difíceis e raciocinou sobre as imagens do quebra-cabeça. Não se perdeu. Não brigou com o site. Só levou seu tempo. A janela de contexto era de 1.0M tokens e ele usou apenas cerca de 397k dela — muito espaço na mesa para um QI 90. Depois de 85 minutos eu queria pelo menos um pequeno show de fogos. Em vez disso, recebi um educado dar de ombros.

O cartão de resultado do iq-test.cc com 'Your IQ: 90' — O resultado do Cowork: IQ 90, a faixa "média" do teste. Veja o resultado no iq-test.cc →

Claude Code — IQ 90

Depois o Claude Code, também com Opus 4.8. Também IQ 90. O log ativo foi de cerca de 96 minutos, e a execução inteira em tempo de relógio pareceu pouco menos de duas horas. O uso de 5 horas foi de 22% a 50% — cerca de 28 pontos, a execução visível mais cara do dia — e o contexto cresceu para cerca de 525k tokens de uma janela de 1.0M. Meio milhão de tokens foram para o mesmo QI 90, o que me fez olhar para a tabela, depois para o meu limite, depois de volta para a tabela. Duas execuções do Claude, dois QI 90, e um limite de plano que parecia ter passado por uma reunião longa sem café.

O painel de resultado do Claude Code: um cartão com pontuação IQ 90 e a linha 'Result: IQ 90' — O resumo do próprio Claude Code: 25 questões feitas, idade 30 selecionada, Resultado: IQ 90. Veja o resultado no iq-test.cc →

Claude Sonnet 4.6 — IQ 68

Depois o Sonnet 4.6, em cerca de 62 minutos. Essa execução teve sua própria comédia. O Sonnet primeiro tentou usar o Chrome e pediu acesso a capturas de tela. Esse acesso expirou duas vezes, cerca de cinco minutos cada vez. Depois disso, mudou de tática e passou para arquivos de imagem locais.

"O acesso ao computador não está funcionando. Vou baixar as imagens das questões localmente e lê-las diretamente."

A alternativa funcionou bem o bastante para terminar o teste. A pontuação não curtiu a viagem. O QI 68 foi mais alto do que apenas 1,6% de todos os resultados — o tipo de pontuação em que os triângulos minúsculos nem parecem bravos. Eles só parecem decepcionados.

A página de resultados do iq-test.cc mostrando um grande cartão 'IQ: 68' — A página de resultado do Sonnet: IQ 68, mais alto do que apenas 1,6% dos participantes. Veja o resultado no iq-test.cc →

Codex 5.5 no plano de $100 — IQ 124

Em seguida veio o Codex 5.5 no plano de $100, em Fast Mode. Ele fez QI 124 em cerca de 18 minutos, movendo o uso de 5 horas de 31% para 43%. Sua janela de contexto era bem menor — 258k tokens, com um pico em torno de 120k.

Essa execução pareceu diferente de imediato. O Codex não ficou só encarando a página uma questão por vez. Ele organizou primeiro as imagens do quebra-cabeça, depois respondeu a partir de uma visão mais limpa do problema. Foi como ver alguém transformar uma mesa bagunçada de peças de quebra-cabeça numa pequena bancada de trabalho organizada.

O chat do Codex mostrando o prompt do teste de QI, 'Worked for 17m 41s' e 'Result: 124 IQ' — O Codex 5.5 trabalhou por 17m 41s e relatou: Resultado: 124 IQ (barra lateral borrada para ocultar detalhes da conta). Veja o resultado no iq-test.cc →

Codex 5.4 no plano de $100 — IQ 101

O Codex 5.4, mesmo plano, também Fast Mode, fez QI 101 em cerca de 16 minutos. Ele usou o navegador embutido no app e percorreu o teste em uma só aba, salvando pequenas montagens para algumas questões difíceis. O QI 101 superou todas as três execuções do Claude — mas ficou bem abaixo do Codex 5.5 no mesmo plano. A diferença não foi velocidade (16 minutos contra 18). Foi método: o 5.5 mapeou o material visual com mais cuidado, e esses dois minutos extras compraram 23 pontos de QI.

O resultado do Codex 5.4 foi QI 101 — à frente de toda execução do Claude, atrás do Codex 5.5. Veja o resultado no iq-test.cc →

Sua melhor frase não foi sobre um quebra-cabeça. Foi sobre o site:

"O site travou em um bloco de resposta, provavelmente por causa de sobreposições na página."

Codex 5.5 no plano de $200 — IQ 131

Aí havia a execução anterior do Codex 5.5 no plano de $200, também em Fast Mode. Ela usou um prompt mais curto — "Faça o teste de QI aqui e mostre seu resultado" — e fez QI 131 em cerca de 34 minutos, gastando apenas cerca de 6 pontos do limite de 5 horas. Ela também teve o problema mais engraçado de todo o experimento:

Esqueci de dar ao Codex o acesso normal ao navegador.

Eu esperava a habitual resposta educada de máquina — algo como "Por favor, habilite a ferramenta de navegador", uma plaquinha de pare bem limpa. O Codex não fez isso. Ele olhou para a porta da frente trancada, ajustou sua minúscula gravata imaginária e começou a procurar janelas.

Primeiro leu as páginas do teste sem um navegador normal. Depois baixou as imagens das questões e das respostas. Então notou que os nomes dos arquivos não batiam com os números das páginas, então verificou cada página, encontrou os links reais das imagens e montou folhas de contato com cada questão e todas as seis respostas. A essa altura, o Codex estava basicamente fazendo um teste de QI por uma fresta da porta.

O envio final foi mais difícil. O site queria uma sessão de navegador real, com os pequenos tokens da web que provam que você ainda está na mesma visita. O Playwright não estava instalado. O acesso normal ao navegador não estava lá. Esse é o momento em que a maioria das ferramentas se senta no chão e espera por um adulto. O Codex não se sentou. Ele encontrou o app do Chrome na máquina, iniciou-o sem uma janela visível e o controlou pela interface de controle remoto do Chrome. Ele clicou em todas as 25 respostas em uma sessão ao vivo, lidou com a etapa de idade, pressionou o botão de resultado e salvou o resultado.

Esqueci de lhe dar a chave. Ele fez um chaveiro. E depois de rastejar pelo site como um minúsculo funcionário de escritório em missão, a desajeitada execução sem navegador ainda registrou a melhor pontuação do dia: IQ 131.

Foi a melhor pontuação de todo o experimento — conquistada sem uma chave normal de navegador. Veja o resultado no iq-test.cc →

Uma ressalva: essa execução mais antiga não dizia "selecione idade 30", então o site usou sua idade padrão, tratada como 27. Idade 27 e idade 30 são próximas, mas as execuções não são perfeitamente idênticas. Ainda assim, o resultado é difícil de ignorar.

Como eles resolveram

Uma observação primeiro: não estou lendo pensamentos ocultos do modelo aqui. Isto é construído a partir de mensagens visíveis, metadados de ferramentas, arquivos salvos e notas finais — mais como ler pegadas em concreto fresco do que um diário de dentro da cabeça do modelo.

O Codex 5.5 teve o método mais limpo. Ele tratou o teste como um problema de dados visuais: abrir a página, encontrar as imagens reais do quebra-cabeça e das respostas, baixá-las e colocar cada questão acima de suas seis opções. Para as questões difíceis ele deu zoom, recortou e olhou os arquivos originais. Suas notas usavam ideias normais de quebra-cabeça — quadrados latinos, rotações, sobreposições, simetria, contagens variáveis. Uma linha resumiu o método inteiro em uma frase:

"As primeiras linhas são em sua maioria padrões diretos de quadrado latino e de formas aditivas; as linhas posteriores são onde estou gastando o orçamento de cuidado."

Essa expressão — "orçamento de cuidado" — é perfeita. Ele não gastou cuidado em todo lugar. Gastou onde as formas minúsculas começaram a agir de forma suspeita.

Algumas de suas chamadas mostram o estilo:

Q12 (caixas 3D sombreadas): ele dividiu o quebra-cabeça em duas questões — qual face estava escura e se a caixa era alta, normal ou larga — e abriu a imagem em tamanho real porque a folha de contato deixava a face sombreada pequena demais para ler.
Q16: uma regra do tipo XOR — as partes compartilhadas se cancelam, e as formas externas e internas restantes formam a resposta.
Q21: a regra era copiar a metade esquerda para baixo em cada coluna, o que apontava direto para a opção 3.
Q24: ele tratou o ponto único como caminhando ao longo de uma diagonal e escolheu a opção que continuava o caminho.

E antes de enviar, ele revisou as que estavam instáveis:

"Tenho uma sequência candidata, mas estou revisando o punhado em que várias opções pareciam plausíveis."

O Opus, tanto no Cowork quanto no Claude Code, trabalhou mais na mão: capturas de tela, zoom, um quebra-cabeça por vez. As notas eram detalhadas — formas crescentes, cunhas girando, grades de símbolos, quebra-cabeças de sobreposição. Não foi preguiçoso; estava tomando notas como um estudante sério com uma régua.

Algumas de suas leituras foram limpas:

Q1: cada linha usava uma família de formas diferente, e o tamanho crescia da esquerda para a direita, então a célula faltante tinha que ser o quadrado grande.
Q5: um quadrado latino — cada linha e coluna precisa de >, < e = exatamente uma vez.
Q18: ele contou as espirais e encontrou a regra de que a maior contagem de espirais em uma linha é igual à soma das outras duas, então uma linha com 5 e 1 precisava de 4.

Uma nota do Opus soou como uma pessoa de verdade pegando um erro:

"Provavelmente li mal uma posição. Vou dar zoom de novo, com cuidado, na linha 1 e na linha 3."

Seu ponto fraco eram as questões visuais finais — cubos sombreados, formas de gema, ponteiros girando, pontos em movimento. Sua própria nota final foi honesta:

"Algumas dessas respostas foram meus melhores palpites raciocinados, e não certezas."

O Sonnet teve o caminho mais acidentado. Depois que o acesso às capturas de tela expirou, ele baixou as imagens das questões e das respostas e as leu diretamente. O plano tinha pernas; os olhos tiveram um longo dia.

Suas hipóteses muitas vezes eram sensatas, mesmo quando a escolha final errava:

Q6: ele contou os raios da estrela — a linha 3 caiu de 6 para 4, então esperava uma resposta de 2 raios.
Q19: primeiro esperava um círculo com a metade direita sólida, depois mudou de ideia porque essa exata opção não era oferecida e ficou com um oval largo.

"A pontuação baixa reflete a dificuldade de analisar com precisão padrões de matrizes visuais a partir de imagens JPEG baixadas, sem percepção visual direta."

Que é uma forma longa de dizer: bom fluxo de trabalho, olhos fracos.

As questões mais difíceis dividiram os agentes. No quebra-cabeça de fragmento de linha (Q9), quatro agentes chegaram a três respostas diferentes. O quebra-cabeça final de transformação de forma (Q25) os dividiu de novo. A discordância raramente era sobre ler os símbolos; era sobre a regra exata para rotações e arredondamentos minúsculos — então é mais fácil simplesmente mostrar o que cada um escolheu.

Q9: uma grade 3x3 de fragmentos de linha com a célula inferior direita faltando — Codex 5.5 · Opus

Uma forma de trapézio aberto com base plana — Codex 5.5 · Opus

Q25: uma grade 3x3 de formas arredondadas se transformando, com a célula inferior direita faltando — Codex 5.5

Uma forma arredondada com um canto plano cortado — Codex 5.5

Conclusões

Neste teste carregado de imagens, o Codex 5.5 se saiu muito melhor do que as execuções do Claude. A escada de pontuação foi clara: Sonnet em 68, ambas as execuções do Opus em 90, Codex 5.4 em 101, e Codex 5.5 em 124 e 131.

O que tirei disso

Em trabalho carregado de imagens, vence o agente que organiza primeiro o visual. O método superou o tamanho bruto do modelo.
Uma janela de contexto maior não significou uma pontuação melhor. As execuções de 1.0M tokens perderam para uma de 258k.
Velocidade e pontuação não são a mesma coisa — dois minutos extras de mapeamento cuidadoso valeram 23 pontos de QI.
Custo e pontuação nem sempre se alinham. A execução de $200 pontuou mais alto gastando uma fatia menor do seu limite.
O prompt faz parte do resultado. A maior pontuação veio de um prompt um pouco diferente e mais curto — então as palavras que você escolhe também são uma variável, não uma constante. Quando você compara agentes, compare as instruções deles antes de confiar nos números.

Então, não, isto não é um ranking científico de mentes artificiais. Mas se a pergunta é "qual é o QI do seu agente num teste visual esquisito na web?", minha resposta é simples.

O Codex foi mais rápido — e mais afiado. Tanto o Codex 5.4 quanto o 5.5 terminaram numa fração do tempo e superaram todas as execuções do Claude, com o Codex 5.5 no plano de $200 liderando o dia com IQ 131.

Compartilhar no Telegram

Perguntas frequentes

Qual agente de programação teve a maior pontuação de QI no teste?

O Codex 5.5 no plano de $200 teve a maior pontuação, QI 131. O Codex 5.5 no plano de $100 fez QI 124, que foi a melhor execução com a instrução mais rígida de idade 30.

Isto foi um benchmark científico de agentes de IA?

Não. Foi um experimento prático e anedótico usando um teste público de QI visual, com o objetivo de comparar comportamento, tempo, custo, uso do navegador e estilo de resolução visual de problemas.

O que pareceu importar mais para uma pontuação alta?

As execuções mais fortes organizaram primeiro as imagens do quebra-cabeça, deram zoom nas questões difíceis e revisaram as respostas incertas antes de enviar.