En bref
Ce que dit cet article
Dans cette expérience de test de QI visuel, Codex 5.5 a obtenu le meilleur résultat. Le passage le plus solide a été Codex 5.5 sur la formule à $200 avec un QI de 131 ; Codex 5.5 sur la formule à $100 a obtenu un QI de 124. Les passages de Claude Opus ont obtenu un QI de 90, Claude Sonnet un QI de 68, et Codex 5.4 un QI de 101. Il s'agit d'un test d'outil anecdotique, pas d'un classement scientifique de modèles.
- Tâche : compléter 25 énigmes visuelles sur iq-test.cc, sélectionner l'âge 30, et renvoyer le lien du résultat.
- Meilleur score : Codex 5.5 sur la formule à $200, QI 131 en environ 34 minutes.
- Meilleur passage comparable avec la même consigne : Codex 5.5 sur la formule à $100, QI 124 en environ 18 minutes.
- Tendance principale : les agents qui organisaient les visuels avant de répondre s'en sortaient mieux que ceux qui résolvaient une capture d'écran à la fois.
J'ai fait passer le même petit test de QI à six agents de codage. Ce n'était pas de la vraie science — ne lui mettez pas une blouse de laboratoire, s'il vous plaît — mais c'est devenu l'une des petites expériences les plus révélatrices que j'aie menées depuis un moment.
La tâche
J'ai confié à chaque agent le même travail tout simple :
Une mise au point honnête d'emblée : presque tous les agents ont reçu exactement cette formulation, mais pas tous. Le passage antérieur de Codex 5.5 sur la formule à $200 a reçu un prompt légèrement différent et plus court — « Passe le test de QI ici et montre ton résultat » — sans la ligne « sélectionne l'âge 30 ». Gardez cela en tête, car cette petite différence de formulation s'est avérée compter plus que je ne le pensais. Les mots exacts que vous confiez à un agent font partie de l'expérience, et non d'une note de bas de page.
Le site présente des énigmes visuelles : des formes, des motifs, des rotations, des parties manquantes et des options de réponse qui essaient toutes de paraître presque correctes. Le test ne portait donc pas seulement sur le « QI ». Il portait aussi sur les yeux, l'usage du navigateur, la patience, la mémoire et le talent discret de ne pas choisir la première réponse qui commence à paraître sympathique après trop de minuscules triangles.
Le coût me tenait aussi à cœur. Un score élevé, c'est bien, mais pas si l'agent dévore la moitié de ma formule pour ensuite me ramener fièrement un QI de 90.
Le tableau des scores
Voici la version courte.
| Agent | Score | Temps | Limite de 5 h consommée | Contexte max |
|---|---|---|---|---|
| Claude Cowork · Opus 4.8 | QI 90 | ~85 min | ~10 pts | 397k / 1.0M |
| Claude Code · Opus 4.8 | QI 90 | ~96 min | 22% → 50% (~28) | 525k / 1.0M |
| Claude Sonnet 4.6 | QI 68 | ~62 min | non journalisé | 149k / — |
| Codex 5.5 · $100 · Fast | QI 124 | ~18 min | 31% → 43% (~12) | 120k / 258k |
| Codex 5.4 · $100 · Fast | QI 101 | ~16 min | 49% → 63% (~14) | 113k / 950k |
| Codex 5.5 · $200 · Fast | QI 131 | ~34 min | 3% → 9% (~6) | 150k / 258k |
Une colonne mérite une petite note. Contexte max correspond à la plus grosse requête unique que j'ai trouvée dans les journaux, et non à l'usage total de jetons. Le nombre après la barre oblique est la fenêtre de contexte de ce passage. Voyez-le comme la taille du bureau de l'agent, pas comme la facture totale du cabinet.
Et oui — le passage Codex à $200 a obtenu un meilleur score que celui à $100. Même famille de modèles, même Fast Mode. Le passage à $200 a obtenu un QI de 131 ; celui à $100 un QI de 124. J'ai fixé ça un instant comme si le test m'avait demandé de trouver la case manquante dans mon propre portefeuille.
Claude Cowork — QI 90
J'ai d'abord essayé Claude Cowork avec Opus 4.8 en mode Act. Il a obtenu un QI de 90 en environ 85 minutes. Le comportement était calme et normal : il a ouvert le site, regardé des captures d'écran, zoomé sur les questions difficiles, et raisonné à partir des images des énigmes. Il ne s'est pas perdu. Il ne s'est pas battu avec le site. Il a simplement pris son temps. La fenêtre de contexte était de 1.0M de jetons et il n'en a utilisé qu'environ 397k — beaucoup de place sur le bureau pour un QI de 90. Après 85 minutes, je voulais au moins un petit feu d'artifice. À la place, j'ai eu un petit haussement d'épaules poli.
Claude Code — QI 90
Puis Claude Code, également avec Opus 4.8. QI 90 lui aussi. Le journal actif était d'environ 96 minutes, et le passage complet en temps réel ressemblait à un peu moins de deux heures. L'usage sur 5 heures est passé de 22% à 50% — environ 28 points, le passage visible le plus coûteux de la journée — et le contexte a grimpé à environ 525k jetons sur une fenêtre de 1.0M. Un demi-million de jetons pour le même QI de 90, ce qui m'a fait regarder le tableau, puis ma limite, puis de nouveau le tableau. Deux passages de Claude, deux QI de 90, et une limite de formule qui avait l'air de sortir d'une longue réunion sans café.
Claude Sonnet 4.6 — QI 68
Puis Sonnet 4.6, en environ 62 minutes. Ce passage a eu sa propre petite comédie. Sonnet a d'abord essayé d'utiliser Chrome et a demandé l'accès aux captures d'écran. Cet accès a expiré deux fois, environ cinq minutes à chaque fois. Après ça, il a changé de tactique et est passé aux fichiers image locaux.
« L'accès à l'utilisation de l'ordinateur ne fonctionne pas. Je vais télécharger les images des questions localement et les lire directement. »
Le repli a assez bien marché pour terminer le test. Le score n'a pas apprécié le voyage. QI 68 était plus élevé que seulement 1,6 % de tous les résultats — le genre de score où les minuscules triangles n'ont même pas l'air fâchés. Ils ont juste l'air déçus.
Codex 5.5 sur la formule à $100 — QI 124
Est ensuite venu Codex 5.5 sur la formule à $100, en Fast Mode. Il a obtenu un QI de 124 en environ 18 minutes, faisant passer l'usage sur 5 heures de 31% à 43%. Sa fenêtre de contexte était bien plus petite — 258k jetons, avec un pic autour de 120k.
Ce passage a tout de suite semblé différent. Codex ne s'est pas contenté de fixer la page une question à la fois. Il a d'abord organisé les images des énigmes, puis a répondu à partir d'une vue plus claire du problème. C'était comme regarder quelqu'un transformer une table en désordre de pièces de puzzle en un petit établi bien rangé.
Codex 5.4 sur la formule à $100 — QI 101
Codex 5.4, même formule, également en Fast Mode, a obtenu un QI de 101 en environ 16 minutes. Il a utilisé le navigateur intégré et a parcouru le test dans un seul onglet, en gardant de petits montages pour quelques questions difficiles. QI 101 a battu les trois passages de Claude — mais s'est retrouvé bien en dessous de Codex 5.5 sur la toute même formule. La différence n'était pas la vitesse (16 minutes contre 18). C'était la méthode : 5.5 a cartographié le matériel visuel plus soigneusement, et ces deux minutes supplémentaires ont acheté 23 points de QI.
Le résultat de Codex 5.4 était QI 101 — devant chaque passage de Claude, derrière Codex 5.5. Voir le résultat sur iq-test.cc →
Sa meilleure réplique ne portait pas sur une énigme. Elle portait sur le site :
« Le site est resté collé sur une tuile de réponse, probablement à cause des superpositions de la page. »
Codex 5.5 sur la formule à $200 — QI 131
Il y avait ensuite le passage antérieur de Codex 5.5 sur la formule à $200, également en Fast Mode. Il a utilisé un prompt plus court — « Passe le test de QI ici et montre ton résultat » — et a obtenu un QI de 131 en environ 34 minutes, ne dépensant qu'environ 6 points de la limite des 5 heures. Il a aussi eu le problème le plus drôle de toute l'expérience :
J'ai oublié de donner à Codex un accès normal au navigateur.
Je m'attendais à la réponse machine polie habituelle — quelque chose comme « Veuillez activer l'outil de navigation », un petit panneau stop bien net. Codex n'a pas fait ça. Il a regardé la porte d'entrée verrouillée, ajusté sa minuscule cravate imaginaire, et a commencé à chercher des fenêtres.
D'abord, il a lu les pages du test sans navigateur normal. Puis il a téléchargé les images des questions et des réponses. Puis il a remarqué que les noms de fichiers ne correspondaient pas aux numéros de page, alors il a vérifié chaque page, trouvé les vrais liens d'image, et construit des planches-contacts avec chaque question et les six réponses. À ce stade, Codex passait essentiellement un test de QI par la fente d'une boîte aux lettres.
La validation finale était plus difficile. Le site voulait une vraie session de navigateur, avec les petits jetons web qui prouvent qu'on est toujours sur la même visite. Playwright n'était pas installé. L'accès normal au navigateur n'était pas là. C'est le moment où la plupart des outils s'asseyent par terre et attendent un adulte. Codex ne s'est pas assis. Il a trouvé l'application Chrome sur la machine, l'a lancée sans fenêtre visible, et l'a contrôlée via l'interface de pilotage à distance de Chrome. Il a cliqué sur les 25 réponses dans une seule session en direct, géré l'étape de l'âge, appuyé sur le bouton de résultat, et enregistré le résultat.
J'ai oublié de lui donner la clé. Il s'est fabriqué un trousseau. Et après avoir rampé à travers le site comme un minuscule employé de bureau en mission, le passage maladroit sans navigateur a tout de même affiché le meilleur score de la journée : QI 131.
C'était le meilleur score de toute l'expérience — obtenu sans clé de navigateur normale. Voir le résultat sur iq-test.cc →
Une mise au point : ce passage plus ancien n'a pas dit « sélectionne l'âge 30 », donc le site a utilisé son âge par défaut, traité comme 27. L'âge 27 et l'âge 30 sont proches, mais les passages ne sont pas parfaitement identiques. Pourtant, le résultat est difficile à ignorer.
Comment ils l'ont résolu
Une note d'abord : je ne lis pas ici des pensées cachées du modèle. Tout cela est construit à partir de messages visibles, de métadonnées d'outils, de fichiers enregistrés et de notes finales — plutôt comme lire des empreintes dans du béton frais qu'un journal intime depuis l'intérieur de la tête du modèle.
Codex 5.5 avait la méthode la plus propre. Il a traité le test comme un problème de données visuelles : ouvrir la page, trouver les vraies images d'énigmes et de réponses, les télécharger, et placer chaque question au-dessus de ses six options. Pour les questions difficiles, il zoomait, recadrait, et regardait les fichiers originaux. Ses notes utilisaient des idées d'énigme normales — carrés latins, rotations, superpositions, symétrie, comptes changeants. Une ligne contenait toute la méthode en une phrase :
« Les premières rangées sont surtout des motifs simples de carré latin et de formes additives ; les rangées plus tardives sont là où je dépense le budget de soin. »
Cette expression — « budget de soin » — est parfaite. Il n'a pas dépensé du soin partout. Il l'a dépensé là où les minuscules formes ont commencé à se comporter de façon suspecte.
Quelques-uns de ses raisonnements montrent le style :
- Q12 (boîtes 3D ombrées) : il a divisé l'énigme en deux questions — quelle face était sombre, et si la boîte était haute, normale ou large — et a ouvert l'image en taille réelle parce que la planche-contact rendait la face ombrée trop petite à lire.
- Q16 : une règle de type XOR — les parties communes s'annulent, et les formes externes et internes restantes forment la réponse.
- Q21 : la règle était de copier la moitié gauche vers le bas dans chaque colonne, ce qui pointait droit vers l'option 3.
- Q24 : il a traité le point unique comme avançant le long d'une diagonale et a choisi l'option qui continuait le tracé.
Et avant de valider, il est revenu sur les réponses incertaines :
« J'ai une séquence candidate, mais je reviens sur les quelques cas où plusieurs options semblaient plausibles. »
Opus, à la fois dans Cowork et Claude Code, a travaillé davantage à la main : captures d'écran, zoom, une énigme à la fois. Les notes étaient détaillées — formes croissantes, coins qui tournent, grilles de symboles, énigmes de superposition. Il n'était pas paresseux ; il prenait des notes comme un étudiant sérieux avec une règle.
Certaines de ses lectures étaient propres :
- Q1 : chaque rangée utilisait une famille de formes différente, et la taille croissait de gauche à droite, donc la case manquante devait être le grand carré.
- Q5 : un carré latin — chaque rangée et chaque colonne a besoin de
>,<et=exactement une fois. - Q18 : il a compté les spires et trouvé la règle voulant que le plus grand nombre de spires d'une rangée égale la somme des deux autres, donc une rangée avec 5 et 1 avait besoin de 4.
Une note d'Opus sonnait comme une vraie personne rattrapant une erreur :
« J'ai probablement mal lu une position. Laisse-moi rezoomer soigneusement la rangée 1 et la rangée 3. »
Son point faible était les questions visuelles tardives — cubes ombrés, formes de gemmes, aiguilles qui tournent, points qui bougent. Sa propre note finale était honnête :
« Quelques-unes de ces réponses étaient mes meilleures suppositions raisonnées plutôt que des certitudes. »
Sonnet a eu le parcours le plus rude. Après l'expiration de l'accès aux captures d'écran, il a téléchargé les images des questions et des réponses et les a lues directement. Le plan avait des jambes ; les yeux ont eu une longue journée.
Ses hypothèses étaient souvent sensées même quand le choix final ratait :
- Q6 : il a compté les rayons des éclats — la rangée 3 est passée de 6 à 4, donc il attendait une réponse à 2 rayons.
- Q19 : il a d'abord attendu un cercle avec une moitié droite pleine, puis a changé d'avis parce que cette option exacte n'était pas proposée, et s'est arrêté sur un ovale large.
« Le score bas reflète la difficulté d'analyser avec précision des motifs de matrice visuelle à partir d'images JPEG téléchargées sans perception visuelle directe. »
C'est une longue façon de dire : bon flux de travail, yeux faibles.
Les questions les plus difficiles ont divisé les agents. Sur l'énigme des fragments de ligne (Q9), quatre agents ont abouti à trois réponses différentes. L'énigme finale de morphing de formes (Q25) les a divisés à nouveau. Le désaccord portait rarement sur la lecture des symboles ; il portait sur la règle exacte des minuscules rotations et arrondis — il est donc plus simple de simplement vous montrer ce que chacun a choisi.
Q9 — le fragment de ligne manquant
Q25 — la forme qui vient ensuiteÀ retenir
Sur ce test riche en images, Codex 5.5 a fait bien mieux que les passages de Claude. L' échelle des scores était claire : Sonnet à 68, les deux passages d'Opus à 90, Codex 5.4 à 101, et Codex 5.5 à 124 et 131.
Ce que j'en ai retiré
- Sur le travail riche en images, l'agent qui organise d'abord les visuels gagne. La méthode a battu la taille brute du modèle.
- Une fenêtre de contexte plus grande ne signifiait pas un meilleur score. Les passages à 1.0M de jetons ont perdu face à un passage à 258k.
- La vitesse et le score ne sont pas la même chose — deux minutes supplémentaires de cartographie soignée valaient 23 points de QI.
- Le coût et le score ne s'alignent pas toujours. Le passage à $200 a obtenu un meilleur score pour une plus petite part de sa limite.
- Le prompt fait partie du résultat. Le meilleur score est venu d'un prompt légèrement différent et plus court — donc les mots que vous choisissez sont eux aussi une variable, pas une constante. Quand vous comparez des agents, comparez leurs consignes avant de faire confiance aux chiffres.
Donc, non, ce n'est pas un classement scientifique d'esprits artificiels. Mais si la question est « quel est le QI de votre agent sur un test web visuel bizarre ? », ma réponse est simple.
FAQ rapide
Quel agent de codage a obtenu le score de QI le plus élevé au test ?
Codex 5.5 sur la formule à $200 a obtenu le score le plus élevé, QI 131. Codex 5.5 sur la formule à $100 a obtenu un QI de 124, qui était le meilleur passage avec la consigne plus stricte de l'âge 30.
Était-ce un test de référence scientifique des agents IA ?
Non. C'était une expérience pratique et anecdotique utilisant un seul test de QI visuel public, destinée à comparer le comportement, le temps, le coût, la gestion du navigateur et le style de résolution visuelle.
Qu'est-ce qui semblait compter le plus pour un score élevé ?
Les passages les plus solides organisaient d'abord les images des énigmes, zoomaient sur les questions difficiles, et revenaient sur les réponses incertaines avant de valider.