материал
Сбербанк провёл конференцию по обработке данных, машинному обучению и искусственному интеллекту
Материал подготовлен при поддержке Сбербанка
Sberbank Data Science Journey — это соревнование, объединившее 3 400 специалистов и энтузиастов из 21 страны. Сбербанк проводит его второй раз: в прошлом году анализировали поведение клиента на основе карточных транзакций (данные были обезличены и модифицированы). В этом — перед участниками стояла задача из области диалоговых систем.
Кульминацией соревнования стала конференция Sberbank Data Science Day, на которой были названы победители турнира, а также состоялись выступления мировых экспертов в области машинного обучения и технологий искусственного интеллекта.
Конференция прошла 11 ноября в Tesla Place — за день до 176-го дня рождения Сбербанка. Согласно статистике компании, Sberbank Data Science Day стала крупнейшей конференцией по исследованию данных в России, СНГ и Восточной Европе. Она собрала более двух тысяч зрителей.
Важной задачей мероприятия был поиск молодых и талантливых разработчиков и популяризация направления исследования данных в России. Общий призовой фонд соревнования составил 2 млн рублей, а финалистам будут предложены позиции в Сбербанке.
Нейт Кушман
Одним из ключевых спикеров стал Нейт Кушман, главный исследователь Microsoft Research и преподаватель Массачусетского технологического института. Он рассказал, как работают алгоритмы машинного обучения: например, они позволяют спросить у бота, какие комедии идут в выходные, и купить билеты в кино, не выходя из мессенджера.
Бот выделяет данные задачи: намерение пользователя, тематику фильма и дни недели. Если данных для ответа не хватает, он задаёт дополнительные вопросы: например, в каком городе вы находитесь. Потом генерирует ответ.
Обычно бот понимает задачу с помощью нейросетей. На остальных этапах, когда бот ищет противоречия или генерирует ответ, он действует по алгоритмам и шаблонам.
Михаил Бурцев
Михаил Бурцев рассказал о платформе iPavlov — проекте МФТИ, который поддерживает Национальная технологическая инициатива и Сбербанк. На платформе создаются диалоговые системы, или чат-боты нейросетевого интеллекта. Алгоритмы разрабатываются на основе архитектурных принципов работы мозга — благодаря им чат-боты сумеют вести осознанный диалог.
Одна из задач проекта — создать искусственный интеллект, который пройдёт тест Тьюринга.
Если мы посмотрим на индустрию приложений и искусственного интеллекта, то робототехника не будет той областью, где мы сосредоточены на интеллекте и обучении чему-то, что свойственно человеку. Поэтому фронтиром, который действительно близок к true AI (настоящему искусственному интеллекту), является разговорный искусственный интеллект. Именно ему и посвящён проект iPavlov.
Михаил Бурцев, заведующий лабораторией нейронных систем и глубокого обучения МФТИ
В рамках проекта создана библиотека DeepPavlov: в ней собраны нейросетевые компоненты и когнитивные архитектуры, которые помогают быстро создавать разговорный ИИ и адаптировать его под конкретную задачу.
Александр Тужилин
Александр Тужилин, профессор Нью-Йоркского университета и руководитель лаборатории искусственного интеллекта Сбербанка, рассказал, как могут эволюционировать рекомендательные системы. Для многих компаний они служат не просто подспорьем, а минимизирующей затраты базой: например, 80% загрузок фильмов на Netflix происходит с помощью рекомендаций.
Современные рекомендательные системы построены на матрицах пользователя, описания объектов и рейтинга. Они будут развиваться: воспринимать контекст запроса, составлять подробный рейтинг, советовать не привычное, а новое и неожиданное, использовать соцсети и советовать что-то не одному человеку, а группе людей.
Дмитрий Ветров
У современных нейросетей есть несколько проблем, которые мешают применять их во многих сферах. Мы не контролируем переобучение нейросетей, не понимаем, как они принимают решения, и можем их легко обмануть. Ещё нейросети удивительно самоуверенны в принятии решений, даже если те ошибочны. Дмитрий Ветров, профессор ВШЭ, рассказал, как справиться с этими проблемами с помощью байесовского подхода.
Идея байесовского подхода очень проста — интерпретировать все неизвестные величины как случайные. То есть использовать аппарат теории вероятности для оценки неизвестных величин.
Дмитрий Ветров, профессор-исследователь факультета компьютерных наук ВШЭ
Евгений Бурнаев
Евгений Бурнаев, профессор Сколковского института науки и технологий, рассказал, какие технологии используются для распознавания объектов и построения 3D моделей. Новые модели и методы машинного обучения позволят эффективно извлекать трёхмерную информацию из двухмерных данных видеокамер и облаков точек, образованных лазерными и инфракрасными сканерами.
В будущем большинство систем машинного распознавания образов будут совместимы с обработкой 3D/4D данных. Это необходимо, чтобы анализировать движения человека или выражение его лица, обрабатывать данные КТ и МРТ и данные дистанционного зондирования Земли.
Хранить и обрабатывать 3D/4D данные очень затратно. В Сколковском институте пытаются решить эту задачу. Там разрабатывают методы машинного обучения, которые позволят анализировать трёхмерные данные.
Итоги соревнования Sberbank Data Science Journey
Победитель соревнования Дмитрий Умеренков (справа) и старший вице-президент Сбербанка Александр Ведяхин
Участники решали две задачи разной степени сложности. В задаче А они определяли релевантность вопроса, в задаче В — строили вопросно-ответную систему. Андрей Черток, управляющий директор Центра развития компетенций по исследованию данных рассказал, что идея была в том, чтобы собрать размеченную выборку текстов на свободную и банковскую тематику для обучения диалоговых агентов — русскоязычный аналог SQuAD (Stanford Question Answering Dataset).
В качестве данных для задач А и B использовали статьи Википедии. К каждому абзацу сгенерировали примерно пять вопросно-ответных пар. Часть вопросов была сгенерирована с использованием слов из текста абзаца, но не содержала смысловой или контекстной нагрузки. Участники соревнования должны были разработать алгоритмы, которые определяли релевантность вопроса к конкретному абзацу. Победителем этой задачи стал Александр Желубенков — он получил 200 тысяч рублей.
Данными задачи В были параграфы текста и поставленные по ним вопросы. Участники создавали диалоговые системы, которые могли бы естественно отвечать на вопросы по этому тексту. Ответы сравнивали с ответами людей и по результатам определяли лучших. Победителем этой задачи стал Дмитрий Умеренков — он получил один миллион рублей.
Я начал изучать тему с машинным обучением в феврале этого года. Задачами на распознавание текста начал заниматься в конце сентября. Задача В сложнее, чем задача А, но, как ни парадоксально, занять первое место в задаче В существенно проще, чем в задаче А. Для того, чтобы решить задачу А, надо обладать знаниями, которые накапливались 3–4 года. Что касается задачи В, то все решения, которые в ней используются, это наработки этого года.
Дмитрий Умеренков, победитель
Всего участники прислали 6 848 решений, из которых 688 — работоспособные. Лев Хасис, первый заместитель Председателя Правления Сбербанка, отметил, что лучшие из них не уступают решениям соревнований уровня Стэнфордского университета. Разработчики, которые заняли призовые места, получили денежные призы и подарки от партнёров.