Какой IQ у вашего агента?

Q: Какой кодинг-агент набрал самый высокий IQ в тесте?

Самый высокий результат у Codex 5.5 на тарифе $200 — IQ 131. Codex 5.5 на тарифе $100 набрал IQ 124, и это лучший запуск с более строгой инструкцией про возраст 30.

Q: Был ли это научный бенчмарк ИИ-агентов?

Нет. Это практический неформальный эксперимент на одном публичном визуальном тесте на IQ, призванный сравнить поведение, время, стоимость, работу с браузером и стиль решения визуальных задач.

Q: Что, похоже, важнее всего для высокого результата?

Самые сильные запуски сначала упорядочивали изображения головоломок, увеличивали сложные вопросы и пересматривали неуверенные ответы перед отправкой.

Кратко

О чём эта статья

В этом эксперименте с визуальным тестом на IQ лучше всех показал себя Codex 5.5. Самый сильный запуск — Codex 5.5 на тарифе $200 с IQ 131; Codex 5.5 на тарифе $100 набрал IQ 124. Запуски Claude Opus дали IQ 90, Claude Sonnet — IQ 68, а Codex 5.4 — IQ 101. Это неформальный тест инструментов, а не научный рейтинг моделей.

Задача: пройти 25 визуальных головоломок на iq-test.cc, выбрать возраст 30 и вернуть ссылку на результат.
Лучший результат: Codex 5.5 на тарифе $200, IQ 131 примерно за 34 минуты.
Лучший сопоставимый запуск с тем же промптом: Codex 5.5 на тарифе $100, IQ 124 примерно за 18 минут.
Главная закономерность: агенты, которые сначала упорядочивали изображения, справлялись лучше тех, кто решал по одному скриншоту за раз.

Я дал один и тот же небольшой тест на IQ шести кодинг-агентам. Это была не настоящая наука — пожалуйста, не надевайте на неё лабораторный халат, — но вышел один из самых показательных небольших экспериментов, что я ставил за последнее время.

Задача

Каждому агенту я выдал одно и то же простое задание:

Пройди тест на IQ на iq-test.cc. Когда закончишь, выбери возраст 30 и пришли мне ссылку на свой результат.

Одна честная оговорка сразу: почти каждый агент получил именно такую формулировку, но не все. Более ранний запуск Codex 5.5 на тарифе $200 получил чуть другой, более короткий промпт — «Пройди тест на IQ здесь и покажи свой результат» — без строчки «выбери возраст 30». Держите это в уме, потому что небольшая разница в формулировке оказалась важнее, чем я ожидал. Точные слова, которые вы выдаёте агенту, — часть эксперимента, а не сноска к нему.

Сайт показывает визуальные головоломки: фигуры, узоры, повороты, недостающие части и варианты ответа, каждый из которых старается выглядеть почти правильным. Так что тест был не только про «IQ». Он был ещё про зрение, работу с браузером, терпение, память и тихий талант не выбирать первый ответ, который начинает казаться симпатичным после слишком большого числа крошечных треугольников.

Меня также волновала стоимость. Высокий балл — это приятно, но не тогда, когда агент съедает половину моего тарифа и потом гордо приносит мне IQ 90.

Вопрос теста на IQ: сетка 3x3 из растущих фигур с одной недостающей и шесть плиток с ответами — Как выглядит один вопрос — найдите фигуру, завершающую узор, и выберите её из шести почти одинаковых вариантов.

Таблица результатов

Вот короткая версия.

Агент	Балл	Время	Потрачено 5-часового лимита	Пиковый контекст
Claude Cowork · Opus 4.8	IQ 90	~85 мин	~10 п.	397k / 1.0M
Claude Code · Opus 4.8	IQ 90	~96 мин	22% → 50% (~28)	525k / 1.0M
Claude Sonnet 4.6	IQ 68	~62 мин	не зафиксировано	149k / —
Codex 5.5 · $100 · Fast	IQ 124	~18 мин	31% → 43% (~12)	120k / 258k
Codex 5.4 · $100 · Fast	IQ 101	~16 мин	49% → 63% (~14)	113k / 950k
Codex 5.5 · $200 · Fast	IQ 131	~34 мин	3% → 9% (~6)	150k / 258k

Одна колонка требует небольшого пояснения. Пиковый контекст — это самый большой одиночный запрос, который я нашёл в логах, а не общее потребление токенов. Число после слэша — размер контекстного окна для этого запуска. Воспринимайте это как размер рабочего стола агента, а не как счёт за весь офис.

И да — запуск Codex за $200 набрал больше, чем за $100. Та же семья моделей, тот же Fast Mode. Запуск за $200 дал IQ 131; запуск за $100 — IQ 124. Я смотрел на это какое-то время так, будто тест попросил меня найти недостающий квадрат в собственном кошельке.

Claude Cowork — IQ 90

Сначала я попробовал Claude Cowork с Opus 4.8 в режиме Act. Он набрал IQ 90 примерно за 85 минут. Поведение было спокойным и обычным: он открыл сайт, посмотрел на скриншоты, увеличил сложные вопросы и рассуждал над изображениями головоломок. Он не заблудился. Он не воевал с сайтом. Он просто не торопился. Контекстное окно было 1.0M токенов, а он использовал лишь около 397k из него — много места на столе для IQ 90. После 85 минут я хотел хотя бы небольшого салюта. Вместо этого получил вежливое лёгкое пожатие плечами.

Карточка результата iq-test.cc с надписью «Your IQ: 90» — Результат Cowork: IQ 90, «средняя» полоса теста. Посмотреть результат на iq-test.cc →

Claude Code — IQ 90

Затем Claude Code, тоже с Opus 4.8. Тоже IQ 90. Активный лог занял около 96 минут, а весь запуск по часам выглядел почти как два часа. Расход 5-часового лимита вырос с 22% до 50% — примерно 28 пунктов, самый дорогой видимый запуск дня — а контекст вырос примерно до 525k токенов из окна 1.0M. Полмиллиона токенов ушли в тот же IQ 90, и я посмотрел на таблицу, потом на свой лимит, потом снова на таблицу. Два запуска Claude, два IQ 90 и лимит тарифа, который выглядел так, словно прошёл долгое совещание без кофе.

Панель результата Claude Code: карточка с баллом IQ 90 и строка «Result: IQ 90» — Собственная сводка Claude Code: 25 вопросов пройдено, выбран возраст 30, Result: IQ 90. Посмотреть результат на iq-test.cc →

Claude Sonnet 4.6 — IQ 68

Затем Sonnet 4.6, примерно за 62 минуты. У этого запуска была своя маленькая комедия. Sonnet сначала попытался использовать Chrome и запросил доступ к скриншотам. Этот доступ дважды истёк по таймауту, примерно по пять минут каждый раз. После этого он сменил тактику и перешёл к локальным файлам изображений.

«Доступ computer-use не работает. Скачаю изображения вопросов локально и прочту их напрямую».

Запасной вариант сработал достаточно, чтобы закончить тест. Результат от поездки удовольствия не получил. IQ 68 был выше лишь 1.6% всех результатов — такой балл, при котором крошечные треугольники даже не выглядят сердитыми. Они просто выглядят разочарованными.

Страница результатов iq-test.cc с большой карточкой «IQ: 68» — Страница результата Sonnet: IQ 68, выше лишь 1.6% проходивших. Посмотреть результат на iq-test.cc →

Codex 5.5 на тарифе $100 — IQ 124

Дальше шёл Codex 5.5 на тарифе $100, в Fast Mode. Он набрал IQ 124 примерно за 18 минут, сдвинув расход 5-часового лимита с 31% до 43%. Его контекстное окно было гораздо меньше — 258k токенов, с пиком около 120k.

Этот запуск сразу ощущался иначе. Codex не просто смотрел на страницу по одному вопросу за раз. Сначала он упорядочил изображения головоломок, а затем отвечал, глядя на задачу более ясно. Это было похоже на то, как кто-то превращает захламлённый стол из кусочков пазла в аккуратный маленький верстак.

Чат Codex с промптом теста на IQ, «Worked for 17m 41s» и «Result: 124 IQ» — Codex 5.5 работал 17m 41s и отчитался: Result: 124 IQ (боковая панель размыта, чтобы скрыть данные аккаунта). Посмотреть результат на iq-test.cc →

Codex 5.4 на тарифе $100 — IQ 101

Codex 5.4, тот же тариф, тоже Fast Mode, набрал IQ 101 примерно за 16 минут. Он использовал встроенный браузер и прошёл тест в одной вкладке, сохраняя небольшие монтажи для пары сложных вопросов. IQ 101 обогнал все три запуска Claude — но оказался далеко ниже Codex 5.5 на том же самом тарифе. Дело было не в скорости (16 минут против 18). Дело было в методе: 5.5 аккуратнее разметил визуальный материал, и эти две лишние минуты купили 23 пункта IQ.

Результат Codex 5.4 — IQ 101, впереди каждого запуска Claude, позади Codex 5.5. Посмотреть результат на iq-test.cc →

Лучшая его реплика была не про головоломку. Она была про сайт:

«Сайт залип на одной плитке ответа, вероятно из-за оверлеев страницы».

Codex 5.5 на тарифе $200 — IQ 131

Затем был более ранний запуск Codex 5.5 на тарифе $200, тоже в Fast Mode. Он использовал более короткий промпт — «Пройди тест на IQ здесь и покажи свой результат» — и набрал IQ 131 примерно за 34 минуты, потратив лишь около 6 пунктов 5-часового лимита. У него же был самый забавный казус всего эксперимента:

Я забыл дать Codex нормальный доступ к браузеру.

Я ожидал обычного вежливого машинного ответа — чего-то вроде «Пожалуйста, включите инструмент браузера», аккуратного маленького знака «стоп». Codex так не сделал. Он посмотрел на запертую парадную дверь, поправил свой крошечный воображаемый галстук и принялся искать окна.

Сначала он читал страницы теста без нормального браузера. Затем скачал изображения вопросов и ответов. Потом заметил, что имена файлов не совпадают с номерами страниц, поэтому проверил каждую страницу, нашёл настоящие ссылки на изображения и собрал контактные листы с каждым вопросом и всеми шестью ответами. На этом этапе Codex по сути проходил тест на IQ через щель для почты.

Финальная отправка была сложнее. Сайт хотел настоящую сессию браузера, с теми маленькими веб-токенами, которые подтверждают, что вы всё ещё в рамках того же визита. Playwright установлен не был. Нормального доступа к браузеру не было. Это тот момент, когда большинство инструментов садятся на пол и ждут взрослого. Codex не сел. Он нашёл на машине приложение Chrome, запустил его без видимого окна и управлял им через интерфейс удалённого управления Chrome. Он прокликал все 25 ответов в одной живой сессии, прошёл шаг с возрастом, нажал кнопку результата и сохранил результат.

Я забыл дать ему ключ. Он сделал связку ключей. И, проползши по сайту, как крошечный офисный работник с миссией, неуклюжий запуск без браузера всё равно выдал лучший балл дня: IQ 131.

Это был лучший балл всего эксперимента — заработанный без обычного ключа от браузера. Посмотреть результат на iq-test.cc →

Одна оговорка: этот более старый запуск не говорил «выбери возраст 30», поэтому сайт использовал свой возраст по умолчанию, трактуемый как 27. Возраст 27 и возраст 30 близки, но запуски не идеально идентичны. Тем не менее результат трудно игнорировать.

Как они это решали

Сначала одно замечание: я не читаю здесь скрытые мысли моделей. Всё построено на видимых сообщениях, метаданных инструментов, сохранённых файлах и финальных заметках — это скорее чтение следов в мокром бетоне, чем дневник изнутри головы модели.

У Codex 5.5 был самый чистый метод. Он рассматривал тест как задачу с визуальными данными: открыть страницу, найти настоящие изображения головоломок и ответов, скачать их и разложить каждый вопрос над его шестью вариантами. Для сложных вопросов он увеличивал, обрезал и смотрел на исходные файлы. В его заметках использовались обычные идеи головоломок — латинские квадраты, повороты, наложения, симметрия, меняющиеся количества. Одна строчка уместила весь метод в одно предложение:

«Ранние ряды — в основном простые латинские квадраты и аддитивные узоры фигур; поздние ряды — это там, где я трачу бюджет на внимательность».

Эта фраза — «бюджет на внимательность» — идеальна. Он не тратил внимательность повсюду. Он тратил её там, где крошечные фигуры начинали вести себя подозрительно.

Несколько его реплик показывают стиль:

Q12 (затенённые 3D-кубы): он разбил головоломку на два вопроса — какая грань тёмная и был ли куб высоким, обычным или широким — и открыл полноразмерное изображение, потому что на контактном листе затенённая грань была слишком мелкой, чтобы её прочесть.
Q16: правило в стиле XOR — общие части взаимно сокращаются, а оставшиеся внешняя и внутренняя фигуры образуют ответ.
Q21: правило состояло в том, чтобы копировать левую половину вниз по каждому столбцу, что прямо указывало на вариант 3.
Q24: он трактовал одиночную точку как движущуюся по диагонали и выбрал вариант, продолжавший путь.

А перед отправкой он вернулся к шатким:

«У меня есть кандидатная последовательность, но я пересматриваю ту горстку, где несколько вариантов выглядели правдоподобно».

Opus, и в Cowork, и в Claude Code, работал больше вручную: скриншоты, увеличение, по одной головоломке за раз. Заметки были подробными — растущие фигуры, вращающиеся клинья, сетки символов, головоломки с наложениями. Он не ленился; он вёл записи как серьёзный студент с линейкой.

Некоторые его прочтения были чистыми:

Q1: в каждом ряду использовалось своё семейство фигур, а размер рос слева направо, так что недостающая клетка должна была быть большим квадратом.
Q5: латинский квадрат — в каждом ряду и столбце нужны >, < и = ровно по одному разу.
Q18: он подсчитал витки и нашёл правило, что наибольшее число витков в ряду равно сумме двух других, так что ряду с 5 и 1 нужна была 4.

Одна заметка Opus звучала как настоящий человек, ловящий свою ошибку:

«Похоже, я неверно прочёл позицию. Дай-ка я аккуратно перемасштабирую ряд 1 и ряд 3».

Его слабым местом были поздние визуальные вопросы — затенённые кубы, фигуры самоцветов, вращающиеся стрелки, движущиеся точки. Его собственная финальная заметка была честной:

«Часть этих ответов была моими лучшими обоснованными догадками, а не уверенными ответами».

У Sonnet был самый трудный путь. После того как доступ к скриншотам истёк по таймауту, он скачал изображения вопросов и ответов и читал их напрямую. У плана были ноги; у глаз был долгий день.

Его гипотезы часто были разумными, даже когда финальный выбор промахивался:

Q6: он подсчитал лучи звезды — в ряду 3 их стало 4 вместо 6, так что он ожидал ответ с 2 лучами.
Q19: сначала он ожидал круг со сплошной правой половиной, затем передумал, потому что именно такого варианта не предлагалось, и остановился на широком овале.

«Низкий балл отражает сложность точного анализа визуальных матричных узоров по скачанным JPEG-изображениям без прямого визуального восприятия».

Это длинный способ сказать: хороший воркфлоу, слабые глаза.

Самые сложные вопросы разделили агентов. На головоломке с фрагментами линий (Q9) четыре агента сошлись на трёх разных ответах. Финальная головоломка с морфингом фигур (Q25) снова их разделила. Разногласие редко было про чтение символов; оно было про точное правило для крошечных поворотов и скруглений — так что проще просто показать вам, что выбрал каждый.

Q9: сетка 3x3 из фрагментов линий с недостающей нижней правой клеткой — Codex 5.5 · Opus

Открытая трапеция с плоским основанием — Codex 5.5 · Opus

Q25: сетка 3x3 из морфящихся скруглённых фигур с недостающей нижней правой клеткой — Codex 5.5

Скруглённая фигура с одним плоским срезанным углом — Codex 5.5

Выводы

На этом перегруженном изображениями тесте Codex 5.5 справился гораздо лучше запусков Claude. Лестница баллов была ясной: Sonnet на 68, оба запуска Opus на 90, Codex 5.4 на 101, а Codex 5.5 на 124 и 131.

Что я из этого вынес

В работе с обилием изображений побеждает агент, который сначала упорядочивает визуал. Метод обошёл сырой размер модели.
Большее контекстное окно не означало лучший балл. Запуски с 1.0M токенов проиграли запуску с 258k.
Скорость и балл — не одно и то же: две лишние минуты аккуратной разметки стоили 23 пунктов IQ.
Стоимость и балл не всегда совпадают. Запуск за $200 набрал больше за меньшую долю своего лимита.
Промпт — часть результата. Лучший балл пришёл от чуть другого, более короткого промпта — так что выбранные вами слова тоже переменная, а не константа. Когда сравниваете агентов, сравните их инструкции, прежде чем доверять цифрам.

Так что нет, это не научный рейтинг искусственных умов. Но если вопрос звучит как «какой IQ у вашего агента на странном визуальном веб-тесте?», мой ответ прост.

Codex был быстрее — и точнее. И Codex 5.4, и 5.5 справились в разы быстрее и набрали больше, чем все запуски Claude, а Codex 5.5 на тарифе $200 возглавил день с результатом IQ 131.

Поделиться в Telegram

Краткий FAQ

Какой кодинг-агент набрал самый высокий IQ в тесте?

Самый высокий результат у Codex 5.5 на тарифе $200 — IQ 131. Codex 5.5 на тарифе $100 набрал IQ 124, и это лучший запуск с более строгой инструкцией про возраст 30.

Был ли это научный бенчмарк ИИ-агентов?

Нет. Это практический неформальный эксперимент на одном публичном визуальном тесте на IQ, призванный сравнить поведение, время, стоимость, работу с браузером и стиль решения визуальных задач.

Что, похоже, важнее всего для высокого результата?

Самые сильные запуски сначала упорядочивали изображения головоломок, увеличивали сложные вопросы и пересматривали неуверенные ответы перед отправкой.