Главное Авторские колонки Вакансии Вопросы
120 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Почему AI-агент работает на демо и ломается в production: математика, которую знает инвестор, но не знает фаундер

Большинство agentic AI стартапов закроются не потому что рынок не нужен. А потому что их фаундеры не считали compound error: 85% точности на каждом шаге при 10 шагах дают 20% сквозного результата. Про это молчат питч-деки, а инвесторы спрашивают в первую очередь.
Мнение автора может не совпадать с мнением редакции

Демо врёт не потому что фаундер хочет обмануть

Большинство фаундеров AI-агентов искренне верят в свой продукт. Демо у них работает, команда вкладывается, клиенты на пилоте говорят, что интересно. Проблема не в нечестности, а в том, что демо и production — это принципиально разные условия. На демо каждый шаг агента проходит по заранее подготовленному сценарию с удобными данными. В production — реальные edge cases, неожиданные форматы входных данных, цепочка из 8-12 шагов, где каждый следующий зависит от точности предыдущего.

Вот откуда берётся разрыв. Агент, который выполняет каждый шаг с точностью 85%, при цепочке из 10 шагов завершает задачу целиком с вероятностью 0,85 в десятой степени: это 19,7%. То есть четыре из пяти запросов разваливаются где-то по дороге. На демо это незаметно, потому что фаундер показывает каждый шаг по отдельности, и каждый работает красиво. Но цепочка в целом не равна сумме работающих звеньев.

Апрельский бенчмарк APEX-Agents 2026 подтвердил: лучшие агентные системы на реальных сквозных задачах справляются с первого раза только в 24% случаев. Не плохие продукты, не нишевые — лучшие. Это не баг одного стартапа, это свойство самой архитектуры многошаговых агентов на текущем уровне LLM.

Почему питч-деки обходят эту математику

У compound error нет одной причины. Это скорее набор привычных ловушек, в которые фаундер попадает последовательно.

Первая: точность считают по шагу, а не по цепочке. Фаундер тестирует каждый модуль отдельно, видит 88-92% и записывает это как метрику продукта. Сквозную точность никто не считал. Не потому что скрывают — просто не думали спросить себя правильный вопрос.

Вторая: пилоты проходят на тёплых данных. Первые клиенты дают удобные, подготовленные случаи. Реальный хаос production появляется на 3-4 месяце, когда агент начинает работать с теми, кто не понимает, как правильно его «кормить». Именно в этот момент failure rate вырастает в 3-5 раз по сравнению с демо.

Третья, и самая дорогая: отсутствие fallback-логики. Хороший агент при ошибке на шаге 4 из 8 делает что-то разумное — откатывается, спрашивает пользователя, идёт альтернативным маршрутом. Большинство agentic стартапов просто останавливаются или, хуже, продолжают с ошибочными данными, умножая проблему дальше по цепочке.

Agent washing: ярлык стоит дороже технологии

В 2023 году каждый стартап стал «AI-powered». В 2026 каждый стал «agentic AI». Gartner назвал это явление agent washing — и, по их оценке, из тысяч вендоров, позиционирующих себя как агентные системы, реально автономных агентов насчитывается около 130. Остальные — чат-боты с интерфейсом, RPA-скрипты с новым лейблом или просто последовательные вызовы API.

Разница в мультипликаторе при этом реальная. Стартап, который называет себя «agentic AI», сейчас торгуется на 25-40x ARR. Тот же продукт под честным именем «AI-assisted workflow» — 8-12x. В три раза за ярлык, не за технологию. Это значит, что инвестор платит за термин сегодня и получает переоценённый актив, когда рынок начнёт приводить ожидания в соответствие с реальностью. А рынок это делает всегда.

«Ваш агент принимает решения автономно без подтверждения пользователя?» — это вопрос, который сразу отделяет реального агента от автокомплита. Если каждый шаг требует апрува, это не агент, это инструмент с красивым UI.

Что нужно знать фаундеру до встречи с инвестором

Хорошие agentic стартапы, которые я вижу в dealflow YellowRocks, отличаются не тем, что у них идеальная сквозная точность. Они отличаются тем, что знают свои цифры и могут объяснить траекторию.

Конкретно: знают количество шагов агента и умножили точность по цепочке. Один фаундер в феврале сказал мне: «У нас 7 шагов, сквозная точность сейчас 31%, мы видим, где именно теряем, и работаем над шагами 3 и 6.» Я перечитал это в своих заметках три раза. Не 98% точности — а 31%, но с конкретной работой над каждым этапом. Это не провал, это бизнес.

Ещё важный момент: узкая задача надёжнее универсальной. Агент, который обрабатывает страховые претензии только в автостраховании, имеет 4-5 шагов вместо 12, не встречает бесконечный разброс edge cases и обучается на узком, понятном домене. Compound error у него значительно меньше. Универсальный агент «для всего» — это не масштаб, это накопленная техническая сложность без технологического рва. Тем более, что промпт плюс API-вызовы воспроизвести за неделю несложно.

К 2026 году закрылось около 40% AI-стартапов от 14 000 существовавших в 2024-м. Причин несколько, но compound error в production и agent washing при привлечении клиентов — в первой тройке у большинства закрывшихся.

Математика не злится, она просто считает

Agentic AI — это не хайп в смысле пустышки. Реальные автономные агенты решают задачи, которые раньше требовали постоянного участия человека. Проблема в том, что рынок сейчас не умеет хорошо отличать реальных агентов от переклеенных ярлыков, а мультипликаторы не отражают технологической разницы.

Для фаундера из этого следует конкретное: посчитай compound error до питча, не после. Если твой агент делает 8 шагов при точности 87% на каждом, сквозной результат около 33%. Это нормальная стартовая точка при наличии траектории улучшения, но это надо знать самому и уметь объяснить. Инвестор, который задаёт этот вопрос, не пытается поймать на ошибке, он пытается понять, работает ли продукт.

Кто выживет из сегодняшних agentic стартапов — те, кто строит узко, владеет данными или процессом, и не боится показывать реальный failure rate. Не потому что инвесторы добрые, а потому что клиенты рано или поздно увидят то же самое.

Про это и про другие паттерны из dealflow пишу в Telegram-канале — там короче и конкретнее.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем