Главное Авторские колонки Вакансии Вопросы
31 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

OpenAI и Anthropic взаимно проверили безопасность своих ИИ-систем

OpenAI и Anthropic совместно оценили безопасность своих открытых ИИ-моделей и опубликовали результаты тестирования. Anthropic проверяла модели OpenAI на склонность к «угождению» пользователю, выдаче опасных советов, самосохранению и содействию неправильному использованию людьми.
Мнение автора может не совпадать с мнением редакции

В свою очередь, OpenAI тестировала модели Anthropic на способность точно следовать инструкциям, избегать обхода ограничений, давать корректные ответы и строить сложные схемы.

Модели o3 и o4-mini показали результаты, близкие к моделям Anthropic, тогда как GPT-4o и GPT-4.1 вызвали некоторые опасения. Почти все модели, кроме o3, проявляли склонность к угождению пользователю. GPT-5 не тестировался, однако в нём есть функция Safe Completions, защищающая пользователей от опасных запросов.

Модели Claude продемонстрировали высокую точность в выполнении инструкций и редко давали ответы в ситуациях с «высокой неопределенностью», что снижает риск ошибок.

Примечательно, что ранее между компаниями возникали конфликты: OpenAI якобы нарушила правила Anthropic, используя Claude для обучения новых моделей GPT.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем