Идеальные инструменты убеждения: как Gemini и Claude превзошли людей
Сбор пожертвований и ведение политических дискуссий традиционно считались сугубо человеческими навыками, требующими эмпатии, харизмы и способности выстраивать доверие. Однако новое исследование, опубликованное учеными Оксфордского университета подвергает это представление серьезному испытанию, демонстрируя, что ведущие модели ИИ способны не только конкурировать с людьми, но и превосходить признанных экспертов.
В ходе эксперимента, включавшего более тысячи взаимодействий, чат-боты соревновались с профессиональными фандрайзерами, пытаясь убедить доноров сделать пожертвование в международную гуманитарную организацию «Save the Children». Результаты оказались впечатляющими: модель Claude Opus 4.6 от компании Anthropic оказалась почти в три раза эффективнее людей в побуждении участников к пожертвованиям, а средняя сумма взноса, полученная ботом, была на 13% выше.
Секрет мастерства ИИ
Чтобы понять причины успеха, исследователи во главе с докторантом Оксфордского университета Коби Хакенбургом провели дополнительный эксперимент. Они противопоставили модели ИИ, включая Claude и Gemini 2.5 Pro от Google, чемпионам мира по дебатам в британском парламентском формате. Темы споров касались острых политических вопросов, таких как необходимость института монархии или повышение пенсионного возраста.
ИИ победил выдающихся ораторов с отрывом в 4,6 процентных пункта. Анализ данных позволил выявить «секрет» этого мастерства: ботам было предписано опираться на факты и ссылки на экспертов, избегая эмоциональных манипуляций.
В результате ИИ генерировал тексты, которые были в пять раз длиннее человеческих. В среднем разговоре продолжительностью 15–20 минут модели извлекали около 37 различных фактов. Для сравнения, люди-дебатеры в первом раунде приводили лишь около трех фактов.
«Это было неравное состязание с точки зрения объема информации и элегантности, с которой ИИ связывает сообщения «на лету», — пояснил Хакенбург. Исследователи подтвердили этот вывод, ограничив ботов тем же количеством слов, что и у людей: в таких условиях преимущество ИИ полностью исчезло.
Проблема достоверности
Исследование также оценивало уровень «циничной надежности» моделей. Специальная система ИИ проверяла правдивость представленных фактов через поисковые системы. Выяснилось, что для мастерства убеждения истина не является определяющим фактором. Модели зачастую «конструировали» факты или выдумывали несуществующие отчеты, которые звучали логично, и аудитория была убеждена ими в той же степени, что и правдивыми данными.
В эксперименте тестировались четыре модели:
- GPT 5.4 (OpenAI): высокий балл надежности (89 из 100) и исключительное мастерство убеждения.
- Claude Opus 4.6 (Anthropic): высокий уровень точности и победа в кампании по сбору средств.
- Gemini 2.5 Pro (Google): высокий уровень точности и победа над чемпионами мира по дебатам.
- Grok (xAI): провалил тест на надежность (26 из 100) из-за склонности к вымыслам, но остался столь же убедительным для аудитории.
Аникет Чакраборти, чемпион мира по дебатам 2024 года, участвовавший в исследовании, сравнил свои ощущения с поражением Ли Седоля в игре против AlphaGo в 2016 году: «Я почувствовал, что уникальный набор инструментов, который, как я думал, у меня есть, был у меня просто отобран».
Стратегическое значение этих результатов для маркетинга, технологий и политической пропаганды огромно. Модели LLM становятся мощным оружием массового убеждения. Тем не менее, эксперты отмечают, что в реальности люди не всегда готовы к 15-минутным насыщенным текстовым диалогам с ботами. Вероятно, будущая модель работы будет заключаться не в полной замене человека, а в использовании ИИ как «двигателя для создания множественных версий», где человек выступает в роли куратора и менеджера эмоционального взаимодействия.
Перевод с иврита