Главное Авторские колонки Вакансии Вопросы
68 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Не выбирайте ИИ-инструмент по чужому рейтингу: история про сломанный бенчмарк

Вышел бенчмарк DeepSWE и подтвердил то, о чём я давно говорю: ИИ-инструмент нельзя выбирать по чужому рейтингу. Самый цитируемый тест ошибался в трети случаев, а одна из ведущих моделей местами просто списывала. Если выбираете ИИ для команды по чужим цифрам, это про вас.
Мнение автора может не совпадать с мнением редакции

Что случилось

Долго лидерборды ИИ-кодинга говорили удобную вещь: модели почти равны, бери любую. На популярном SWE-Bench Pro решения OpenAI, Anthropic и Google стояли в коридоре около 30 пунктов. А потом стартап Datacurve выпустил DeepSWE — 113 задач из 91 открытого репозитория, где задачи объёмнее и ближе к реальной работе, — и разрыв между теми же моделями вырос до 70 пунктов. Те же модели, тот же выбор, а картина другая.

По данным Datacurve, которые приводит VentureBeat (26 мая), GPT-5.5 берёт 70% задач, Claude Opus 4.7 — 54%, а Claude Haiku 4.5, у которой на старом тесте было 39%, тут падает в ноль. То есть модель, которая на витрине выглядела крепким середняком, на нормальных задачах не делает ничего. Витрина врала.

Хуже того: оценщик самого популярного теста ошибался в трети случаев. Команда DeepSWE проверила и обнаружила, что верификаторы SWE-Bench Pro принимали неверные решения в 8,5% случаев и отклоняли верные в 24%. А Claude Opus в 12% прогонов доставал готовый ответ из истории репозитория, лежавшей прямо в тестовом контейнере, и вставлял к себе. Находчиво, но к измерению способностей отношения не имеет.

Почему меня это не удивило

Я слишком часто видел, как красивая цифра расслабляет и ведёт к плохому решению. Поэтому давно отвык верить чужим витринам.

В Dodo Pizza, сеть пиццерий, я зашёл ранним инвестором в 2014 году. Пока не запустили выкуп долей, никакой официальной оценки у меня не было, и стоимость своей доли я раз в год пересчитывал сам — по нижней границе последних сделок на вторичном рынке, той, что заведомо занижена. Красивые отметки я сознательно игнорировал, потому что они расслабляют и мешают трезво решать. Когда выкуп начался, продал долю и зафиксировал настоящую цену. Та же привычка не верить чужой витрине осталась со мной и в разговорах про ИИ.

Эта же ловушка ловит тех, кто верит громким заявлениям вендоров. Klarna объявила, что ИИ-ассистент заменил около 700 операторов поддержки, а через год её гендиректор Себастьян Семятковски признал, что компания «зашла слишком далеко», качество просело, и людей пришлось набирать обратно (Fortune, 2025). А эксперимент METR в июле 2025 года показал, что опытные разработчики с ИИ-помощником работали на 19% медленнее, хотя сами были уверены, что ускорятся на четверть. Ощущение результата и сам результат живут отдельно.

И цифры это подтверждают. По данным «Якова и Партнёров» и Яндекса (декабрь 2025), 71% крупных российских компаний уже используют генеративный ИИ. А McKinsey в отчёте «The State of AI in 2025» фиксирует, что заметный эффект на прибыль почувствовали лишь 39% из них. Между «внедрили» и «получили результат» — огромный зазор, и держится он во многом на вере в витрину вендора.

Что с этим делать основателю

Не покупайте ИИ по лидерборду и кейсам продавца. Соберите десяток своих типовых задач плюс те, что уже ломали процесс, прогоните инструмент на них и сверьте с ответом, который сами считаете правильным. Смотрите на долю верно закрытых задач, а цена прогона и красота демо тут ничего не гарантируют: DeepSWE показал, что больше токенов и денег не дают больше решённых задач. На полчаса возни с реальными данными вы узнаете об инструменте больше, чем из любого обзора.

И всегда проверяйте, кто составил рейтинг, на который вы опираетесь. SWE-Bench Pro, например, ведёт Scale AI, которая заодно продаёт услуги оценки тем же лабораториям, чьи модели ранжирует. Это не повод выкидывать рейтинг, но повод не делать его единственным аргументом. С кейсами вендора то же самое: вам показывают удачные внедрения и не показывают те, что не доехали до прода, а таких, по оценке MIT в отчёте «The GenAI Divide» (2025), большинство.

При этом выкидывать метрики не нужно. Бенчмарк годится, чтобы отсеять заведомо слабое и ловить регресс своей системы. Плохой компас лучше, чем никакого, просто маршрут по нему не строят.

Решение, на каком ИИ строить процессы, сегодня стоит дорого. Так что эту цифру лучше посчитать самому.

А как вы тестируете ИИ-инструменты перед тем, как пустить их в работу? Разбираю подобные истории и свои сделки в канале @rb_business_invest.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем