Кратко
О чём эта статья
В этом эксперименте с визуальным тестом на IQ лучше всех показал себя Codex 5.5. Самый сильный запуск — Codex 5.5 на тарифе $200 с IQ 131; Codex 5.5 на тарифе $100 набрал IQ 124. Запуски Claude Opus дали IQ 90, Claude Sonnet — IQ 68, а Codex 5.4 — IQ 101. Это неформальный тест инструментов, а не научный рейтинг моделей.
- Задача: пройти 25 визуальных головоломок на iq-test.cc, выбрать возраст 30 и вернуть ссылку на результат.
- Лучший результат: Codex 5.5 на тарифе $200, IQ 131 примерно за 34 минуты.
- Лучший сопоставимый запуск с тем же промптом: Codex 5.5 на тарифе $100, IQ 124 примерно за 18 минут.
- Главная закономерность: агенты, которые сначала упорядочивали изображения, справлялись лучше тех, кто решал по одному скриншоту за раз.
Я дал один и тот же небольшой тест на IQ шести кодинг-агентам. Это была не настоящая наука — пожалуйста, не надевайте на неё лабораторный халат, — но вышел один из самых показательных небольших экспериментов, что я ставил за последнее время.
Задача
Каждому агенту я выдал одно и то же простое задание:
Одна честная оговорка сразу: почти каждый агент получил именно такую формулировку, но не все. Более ранний запуск Codex 5.5 на тарифе $200 получил чуть другой, более короткий промпт — «Пройди тест на IQ здесь и покажи свой результат» — без строчки «выбери возраст 30». Держите это в уме, потому что небольшая разница в формулировке оказалась важнее, чем я ожидал. Точные слова, которые вы выдаёте агенту, — часть эксперимента, а не сноска к нему.
Сайт показывает визуальные головоломки: фигуры, узоры, повороты, недостающие части и варианты ответа, каждый из которых старается выглядеть почти правильным. Так что тест был не только про «IQ». Он был ещё про зрение, работу с браузером, терпение, память и тихий талант не выбирать первый ответ, который начинает казаться симпатичным после слишком большого числа крошечных треугольников.
Меня также волновала стоимость. Высокий балл — это приятно, но не тогда, когда агент съедает половину моего тарифа и потом гордо приносит мне IQ 90.
Таблица результатов
Вот короткая версия.
| Агент | Балл | Время | Потрачено 5-часового лимита | Пиковый контекст |
|---|---|---|---|---|
| Claude Cowork · Opus 4.8 | IQ 90 | ~85 мин | ~10 п. | 397k / 1.0M |
| Claude Code · Opus 4.8 | IQ 90 | ~96 мин | 22% → 50% (~28) | 525k / 1.0M |
| Claude Sonnet 4.6 | IQ 68 | ~62 мин | не зафиксировано | 149k / — |
| Codex 5.5 · $100 · Fast | IQ 124 | ~18 мин | 31% → 43% (~12) | 120k / 258k |
| Codex 5.4 · $100 · Fast | IQ 101 | ~16 мин | 49% → 63% (~14) | 113k / 950k |
| Codex 5.5 · $200 · Fast | IQ 131 | ~34 мин | 3% → 9% (~6) | 150k / 258k |
Одна колонка требует небольшого пояснения. Пиковый контекст — это самый большой одиночный запрос, который я нашёл в логах, а не общее потребление токенов. Число после слэша — размер контекстного окна для этого запуска. Воспринимайте это как размер рабочего стола агента, а не как счёт за весь офис.
И да — запуск Codex за $200 набрал больше, чем за $100. Та же семья моделей, тот же Fast Mode. Запуск за $200 дал IQ 131; запуск за $100 — IQ 124. Я смотрел на это какое-то время так, будто тест попросил меня найти недостающий квадрат в собственном кошельке.
Claude Cowork — IQ 90
Сначала я попробовал Claude Cowork с Opus 4.8 в режиме Act. Он набрал IQ 90 примерно за 85 минут. Поведение было спокойным и обычным: он открыл сайт, посмотрел на скриншоты, увеличил сложные вопросы и рассуждал над изображениями головоломок. Он не заблудился. Он не воевал с сайтом. Он просто не торопился. Контекстное окно было 1.0M токенов, а он использовал лишь около 397k из него — много места на столе для IQ 90. После 85 минут я хотел хотя бы небольшого салюта. Вместо этого получил вежливое лёгкое пожатие плечами.
Claude Code — IQ 90
Затем Claude Code, тоже с Opus 4.8. Тоже IQ 90. Активный лог занял около 96 минут, а весь запуск по часам выглядел почти как два часа. Расход 5-часового лимита вырос с 22% до 50% — примерно 28 пунктов, самый дорогой видимый запуск дня — а контекст вырос примерно до 525k токенов из окна 1.0M. Полмиллиона токенов ушли в тот же IQ 90, и я посмотрел на таблицу, потом на свой лимит, потом снова на таблицу. Два запуска Claude, два IQ 90 и лимит тарифа, который выглядел так, словно прошёл долгое совещание без кофе.
Claude Sonnet 4.6 — IQ 68
Затем Sonnet 4.6, примерно за 62 минуты. У этого запуска была своя маленькая комедия. Sonnet сначала попытался использовать Chrome и запросил доступ к скриншотам. Этот доступ дважды истёк по таймауту, примерно по пять минут каждый раз. После этого он сменил тактику и перешёл к локальным файлам изображений.
«Доступ computer-use не работает. Скачаю изображения вопросов локально и прочту их напрямую».
Запасной вариант сработал достаточно, чтобы закончить тест. Результат от поездки удовольствия не получил. IQ 68 был выше лишь 1.6% всех результатов — такой балл, при котором крошечные треугольники даже не выглядят сердитыми. Они просто выглядят разочарованными.
Codex 5.5 на тарифе $100 — IQ 124
Дальше шёл Codex 5.5 на тарифе $100, в Fast Mode. Он набрал IQ 124 примерно за 18 минут, сдвинув расход 5-часового лимита с 31% до 43%. Его контекстное окно было гораздо меньше — 258k токенов, с пиком около 120k.
Этот запуск сразу ощущался иначе. Codex не просто смотрел на страницу по одному вопросу за раз. Сначала он упорядочил изображения головоломок, а затем отвечал, глядя на задачу более ясно. Это было похоже на то, как кто-то превращает захламлённый стол из кусочков пазла в аккуратный маленький верстак.
Codex 5.4 на тарифе $100 — IQ 101
Codex 5.4, тот же тариф, тоже Fast Mode, набрал IQ 101 примерно за 16 минут. Он использовал встроенный браузер и прошёл тест в одной вкладке, сохраняя небольшие монтажи для пары сложных вопросов. IQ 101 обогнал все три запуска Claude — но оказался далеко ниже Codex 5.5 на том же самом тарифе. Дело было не в скорости (16 минут против 18). Дело было в методе: 5.5 аккуратнее разметил визуальный материал, и эти две лишние минуты купили 23 пункта IQ.
Результат Codex 5.4 — IQ 101, впереди каждого запуска Claude, позади Codex 5.5. Посмотреть результат на iq-test.cc →
Лучшая его реплика была не про головоломку. Она была про сайт:
«Сайт залип на одной плитке ответа, вероятно из-за оверлеев страницы».
Codex 5.5 на тарифе $200 — IQ 131
Затем был более ранний запуск Codex 5.5 на тарифе $200, тоже в Fast Mode. Он использовал более короткий промпт — «Пройди тест на IQ здесь и покажи свой результат» — и набрал IQ 131 примерно за 34 минуты, потратив лишь около 6 пунктов 5-часового лимита. У него же был самый забавный казус всего эксперимента:
Я забыл дать Codex нормальный доступ к браузеру.
Я ожидал обычного вежливого машинного ответа — чего-то вроде «Пожалуйста, включите инструмент браузера», аккуратного маленького знака «стоп». Codex так не сделал. Он посмотрел на запертую парадную дверь, поправил свой крошечный воображаемый галстук и принялся искать окна.
Сначала он читал страницы теста без нормального браузера. Затем скачал изображения вопросов и ответов. Потом заметил, что имена файлов не совпадают с номерами страниц, поэтому проверил каждую страницу, нашёл настоящие ссылки на изображения и собрал контактные листы с каждым вопросом и всеми шестью ответами. На этом этапе Codex по сути проходил тест на IQ через щель для почты.
Финальная отправка была сложнее. Сайт хотел настоящую сессию браузера, с теми маленькими веб-токенами, которые подтверждают, что вы всё ещё в рамках того же визита. Playwright установлен не был. Нормального доступа к браузеру не было. Это тот момент, когда большинство инструментов садятся на пол и ждут взрослого. Codex не сел. Он нашёл на машине приложение Chrome, запустил его без видимого окна и управлял им через интерфейс удалённого управления Chrome. Он прокликал все 25 ответов в одной живой сессии, прошёл шаг с возрастом, нажал кнопку результата и сохранил результат.
Я забыл дать ему ключ. Он сделал связку ключей. И, проползши по сайту, как крошечный офисный работник с миссией, неуклюжий запуск без браузера всё равно выдал лучший балл дня: IQ 131.
Это был лучший балл всего эксперимента — заработанный без обычного ключа от браузера. Посмотреть результат на iq-test.cc →
Одна оговорка: этот более старый запуск не говорил «выбери возраст 30», поэтому сайт использовал свой возраст по умолчанию, трактуемый как 27. Возраст 27 и возраст 30 близки, но запуски не идеально идентичны. Тем не менее результат трудно игнорировать.
Как они это решали
Сначала одно замечание: я не читаю здесь скрытые мысли моделей. Всё построено на видимых сообщениях, метаданных инструментов, сохранённых файлах и финальных заметках — это скорее чтение следов в мокром бетоне, чем дневник изнутри головы модели.
У Codex 5.5 был самый чистый метод. Он рассматривал тест как задачу с визуальными данными: открыть страницу, найти настоящие изображения головоломок и ответов, скачать их и разложить каждый вопрос над его шестью вариантами. Для сложных вопросов он увеличивал, обрезал и смотрел на исходные файлы. В его заметках использовались обычные идеи головоломок — латинские квадраты, повороты, наложения, симметрия, меняющиеся количества. Одна строчка уместила весь метод в одно предложение:
«Ранние ряды — в основном простые латинские квадраты и аддитивные узоры фигур; поздние ряды — это там, где я трачу бюджет на внимательность».
Эта фраза — «бюджет на внимательность» — идеальна. Он не тратил внимательность повсюду. Он тратил её там, где крошечные фигуры начинали вести себя подозрительно.
Несколько его реплик показывают стиль:
- Q12 (затенённые 3D-кубы): он разбил головоломку на два вопроса — какая грань тёмная и был ли куб высоким, обычным или широким — и открыл полноразмерное изображение, потому что на контактном листе затенённая грань была слишком мелкой, чтобы её прочесть.
- Q16: правило в стиле XOR — общие части взаимно сокращаются, а оставшиеся внешняя и внутренняя фигуры образуют ответ.
- Q21: правило состояло в том, чтобы копировать левую половину вниз по каждому столбцу, что прямо указывало на вариант 3.
- Q24: он трактовал одиночную точку как движущуюся по диагонали и выбрал вариант, продолжавший путь.
А перед отправкой он вернулся к шатким:
«У меня есть кандидатная последовательность, но я пересматриваю ту горстку, где несколько вариантов выглядели правдоподобно».
Opus, и в Cowork, и в Claude Code, работал больше вручную: скриншоты, увеличение, по одной головоломке за раз. Заметки были подробными — растущие фигуры, вращающиеся клинья, сетки символов, головоломки с наложениями. Он не ленился; он вёл записи как серьёзный студент с линейкой.
Некоторые его прочтения были чистыми:
- Q1: в каждом ряду использовалось своё семейство фигур, а размер рос слева направо, так что недостающая клетка должна была быть большим квадратом.
- Q5: латинский квадрат — в каждом ряду и столбце нужны
>,<и=ровно по одному разу. - Q18: он подсчитал витки и нашёл правило, что наибольшее число витков в ряду равно сумме двух других, так что ряду с 5 и 1 нужна была 4.
Одна заметка Opus звучала как настоящий человек, ловящий свою ошибку:
«Похоже, я неверно прочёл позицию. Дай-ка я аккуратно перемасштабирую ряд 1 и ряд 3».
Его слабым местом были поздние визуальные вопросы — затенённые кубы, фигуры самоцветов, вращающиеся стрелки, движущиеся точки. Его собственная финальная заметка была честной:
«Часть этих ответов была моими лучшими обоснованными догадками, а не уверенными ответами».
У Sonnet был самый трудный путь. После того как доступ к скриншотам истёк по таймауту, он скачал изображения вопросов и ответов и читал их напрямую. У плана были ноги; у глаз был долгий день.
Его гипотезы часто были разумными, даже когда финальный выбор промахивался:
- Q6: он подсчитал лучи звезды — в ряду 3 их стало 4 вместо 6, так что он ожидал ответ с 2 лучами.
- Q19: сначала он ожидал круг со сплошной правой половиной, затем передумал, потому что именно такого варианта не предлагалось, и остановился на широком овале.
«Низкий балл отражает сложность точного анализа визуальных матричных узоров по скачанным JPEG-изображениям без прямого визуального восприятия».
Это длинный способ сказать: хороший воркфлоу, слабые глаза.
Самые сложные вопросы разделили агентов. На головоломке с фрагментами линий (Q9) четыре агента сошлись на трёх разных ответах. Финальная головоломка с морфингом фигур (Q25) снова их разделила. Разногласие редко было про чтение символов; оно было про точное правило для крошечных поворотов и скруглений — так что проще просто показать вам, что выбрал каждый.
Q9 — недостающий фрагмент линии
Q25 — фигура, которая идёт следующейВыводы
На этом перегруженном изображениями тесте Codex 5.5 справился гораздо лучше запусков Claude. Лестница баллов была ясной: Sonnet на 68, оба запуска Opus на 90, Codex 5.4 на 101, а Codex 5.5 на 124 и 131.
Что я из этого вынес
- В работе с обилием изображений побеждает агент, который сначала упорядочивает визуал. Метод обошёл сырой размер модели.
- Большее контекстное окно не означало лучший балл. Запуски с 1.0M токенов проиграли запуску с 258k.
- Скорость и балл — не одно и то же: две лишние минуты аккуратной разметки стоили 23 пунктов IQ.
- Стоимость и балл не всегда совпадают. Запуск за $200 набрал больше за меньшую долю своего лимита.
- Промпт — часть результата. Лучший балл пришёл от чуть другого, более короткого промпта — так что выбранные вами слова тоже переменная, а не константа. Когда сравниваете агентов, сравните их инструкции, прежде чем доверять цифрам.
Так что нет, это не научный рейтинг искусственных умов. Но если вопрос звучит как «какой IQ у вашего агента на странном визуальном веб-тесте?», мой ответ прост.
Краткий FAQ
Какой кодинг-агент набрал самый высокий IQ в тесте?
Самый высокий результат у Codex 5.5 на тарифе $200 — IQ 131. Codex 5.5 на тарифе $100 набрал IQ 124, и это лучший запуск с более строгой инструкцией про возраст 30.
Был ли это научный бенчмарк ИИ-агентов?
Нет. Это практический неформальный эксперимент на одном публичном визуальном тесте на IQ, призванный сравнить поведение, время, стоимость, работу с браузером и стиль решения визуальных задач.
Что, похоже, важнее всего для высокого результата?
Самые сильные запуски сначала упорядочивали изображения головоломок, увеличивали сложные вопросы и пересматривали неуверенные ответы перед отправкой.