редакции Выбор
Ученые из T-Bank AI Research и AIRI создали датасет для обучения искусственного интеллекта на 100 млрд демонстрационных действий
Он поможет ученым быстрее и дешевле проводить исследования без привлечения узкопрофильных специалистов и ставить эксперименты на синтетических данных для анализа новых подходов в обучении ИИ.
Массив данных включает 100 млрд примеров действий ИИ-агента на 30 тыс. задач. Для создания такого датасета потребовалось суммарно около 50 тыс. GPU-часов. Такие вычислительные мощности недоступны большинству академических исследовательских лабораторий.
Контекстное обучение с подкреплением
Контекстное обучение с подкреплением (In-Сontext RL) — одна из наиболее перспективных областей машинного обучения. В этом случае ИИ взаимодействует с окружающей средой, учитывает ее контекст при принятии решений и имеет больше возможностей для адаптации к новым средам, то есть может решать большее количество задач. In-Сontext RL можно использовать для обучения ИИ во всех сферах: от игровой индустрии и здравоохранения до робототехники и промышленности.
Модели в In-Context RL обучаются на массивах данных с демонстрацией правильного решения конкретных задач. Так они узнают принципы поиска решения — и способны переносить их на ранее незнакомые задания.
Существующие наборы данных ограничивали исследования метода In-Context RL из-за своей простоты, структуры или малого количества задач. Кроме того, они часто закрыты для широкого использования, особенно самые подходящие. Все это снижает возможности ученых, работающих над развитием искусственного интеллекта.
Датасет XLand-100B
Для создания XLand-100B используется предыдущая работа ученых из лаборатории T-Bank AI Research и Института AIRI, где исследователи добились высокой эффективности и скорости в работе со средой XLand-Minigrid. Там производится начальное предобучение агента на 65 тыс. задач с контролем со стороны человека, чтобы вывести на приемлемый уровень качества и возможностей. Далее агентов дообучают еще на 30 тыс. задач уже без указания задачи.
Весь процесс обучения записывается.
Впоследствии запись превращается в набор данных. Созданный датасет сохраняет
все состояния среды, в которых был агент во время обучения, все его действия и
награды. История обучения позволяет производить дальнейшее обучение моделей
In-Context RL в нужном формате.
Лаборатория T-Bank AI Research
T-Bank Al Research — это одна из немногих российских лабораторий, которые занимаются фундаментальными научными исследованиями на базе бизнеса. Лаборатория входит в состав Центра искусственного интеллекта Т-Банка.
Ученые из T-Bank Al Research исследуют наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV) и рекомендательные системы (RecSys). По результатам экспериментов они пишут научные статьи для наиболее авторитетных международных научных конференций: NeurIPS, ICML, ACL, CVPR и других.
За три года существования команды более 20 статей были приняты на крупнейшие конференции и воркшопы в области ИИ. Научные работы T-Bank Al Research цитируются учеными из университетов Беркли и Стэнфорда, а также исследовательского проекта Google по изучению искусственного интеллекта Google DeepMind.
Команда курирует исследовательские лаборатории T-Bank Lab в МФТИ и Omut AI в Центральном университете и помогает талантливым студентам совершать научные открытия.