редакции Выбор
Российские ученые из T-Bank AI Research и AIRI первыми в мире обучили искусственный интеллект самостоятельно адаптироваться к новым действиям
Ранее ИИ-системы умели выполнять только фиксированный набор действий, а при появлении новых задач должны были переобучаться с нуля. Это требовало дополнительных финансовых и вычислительных ресурсов, чтобы дообучить ИИ для практического применения.
Теперь же открытие российских ученых позволяет создавать ИИ-системы, которые будут адаптироваться к изменениям внешней среды и новым задачам без участия человека. Решение поможет в различных областях: от космических аппаратов до домашних роботов-помощников.
Разработанная российскими учеными модель, названная Headless-AD, умеет выполнять в пять раз больше действий, чем заложено в нее при обучении.
Один из потенциальных сценариев применения такой модели — создание персональных роботов-помощников по дому. Они могут быть обучены на стандартном наборе действий и выполнять одни и те же задачи в каждом доме. Модель Headless-AD, в свою очередь, предполагает возможность адаптации к индивидуальному контексту и особенностям быта, что позволяет домашним роботам без переобучения осваивать новые действия, необходимые для быта каждого отдельного домохозяйства. Другой пример применения модели — адаптация беспилотного автомобиля, который будет способен работать после замены детали, даже если она имеет другой принцип работы. Например, при установке двигателя с более сильной тягой или новой шины.
Результаты исследования были признаны мировым
научным сообществом и представлены на одной из самых престижных и крупных
конференций в области ИИ — международной конференции по машинному обучению ICML
(International Conference on Machine Learning), которая в этом году проходит в
41-й раз в Вене, Австрия.
Суть открытия
Обучение в контексте (In-Context Learning) — это одна из самых перспективных областей в сфере искусственного интеллекта. Оно позволяет ИИ-агентам адаптироваться к новым ситуациям без необходимости повторного обучения.
Теоретически ИИ-агенты должны уметь адаптироваться к окружающей среде по четырем компонентам:
● Состояние (State) — то, что агент видит или знает о текущей ситуации.
● Переход (Transition) — изменение состояния агента.
● Награда (Reward) — оценка выполненного агентом действия, может быть положительной или отрицательной.
● Действие (Action) — доступные агенту способы взаимодействия со средой.
Ранее ИИ-агенты умели адаптироваться по первым трем компонентам. Например, беспилотные автомобили адаптируются к меняющимся погодным условиям (State), скорости движения (Transition) и пунктам назначения (Reward). Последняя из этих компонент — адаптация по действиям (Action) — не была до конца изучена и не использовалась в создании моделей. Агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.
Ученые из T-Bank AI Research и AIRI решили эту проблему, создав модель Headless-AD, которая научилась адаптироваться к окружающей среде по действиям. Для этого они взяли за основу модель дистилляции алгоритма (Algorithm Distillation, AD), ранее самую передовую разработку в In-Context Learning. Однако ее применение ограничено только тем набором действий, что доступен на этапе обучения.
Headless-AD была создана на основе AD с помощью трех модификаций:
● Отказ от конечного линейного слоя, который ранее ограничивал количество и набор доступных действий, — отсюда название Headless-AD.
● Кодировка действий случайными векторами — позволяет избежать необходимости дообучения для каждого нового действия, обеспечивая автоматическую адаптацию.
● Внедрение контекста, который позволяет информировать модель о доступных действиях.
Результаты экспериментов
Было проведено несколько экспериментов, сравнивающих Headless-AD и ближайшие аналоги на разных задачах. Например, в модели рекомендательных систем «Контекстуальные бандиты» задача агента — рекомендовать пользователю наиболее подходящие товары. Headless-AD может рекомендовать в пять раз больше товаров по сравнению с тем количеством, которому ее обучали. В то время как модель AD требует переобучения для каждого нового набора товаров и не способна достигать исходного качества при увеличении их количества.
При этом адаптация Headless-AD к новым
действиям происходит без потери качества. Задача «Многорукие бандиты», где
требуется найти оптимальное действие за наименьшее количество попыток,
показала, что Headless-AD работает на уровне специализированного алгоритма,
созданного конкретно под эту задачу.
Другие эксперименты также подтвердили, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом сохраняя качество их выполнения и не затрачивая дополнительные вычислительные ресурсы. Это делает применение ИИ более быстрым и дешевым.
Подробное описание модели и результаты экспериментов доступны в статье In-Context Reinforcement Learning for Variable Action Spaces.
Исходный код и дополнительные материалы можно найти на GitHub.
Лаборатория T-Bank AI Research
T-Bank Al Research — это одна из немногих российских лабораторий, которые занимаются фундаментальными научными исследованиями на базе бизнеса. Лаборатория входит в состав Центра искусственного интеллекта Т-Банка.
Ученые из T-Bank Al Research исследуют наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV) и рекомендательные системы (RecSys). По результатам экспериментов они пишут научные статьи для наиболее авторитетных международных научных конференций: NeurIPS, ICML, ACL, CVPR и других.
За три года существования команды более 20 статей были приняты на крупнейшие конференции и воркшопы в области ИИ. Научные работы T-Bank Al Research цитируются учеными из университетов Беркли и Стэнфорда, а также исследовательского проекта Google по изучению искусственного интеллекта Google DeepMind.
Команда курирует исследовательские лаборатории T-Bank Lab в МФТИ и Omut AI в Центральном университете и помогает талантливым студентам совершать научные открытия.