Ученые впервые создали открытую среду для быстрого контекстного обучения с подкреплением

Как поясняют в лаборатории, XLand-MiniGrid — это виртуальная среда, опубликованная в открытом доступе для исследователей по всему миру.

МОСКВА, 29 ноября. /ТАСС/. Российские ученые создали первую открытую среду для быстрого контекстного обучения с подкреплением (In-Context RL). Об этом сообщили в лаборатории исследований искусственного интеллекта T-Bank AI Research.

«Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, “Сколтеха” и Иннополиса создали первую открытую среду для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid», — говорится в сообщении.

Как поясняют в лаборатории, XLand-MiniGrid — это виртуальная среда, опубликованная в открытом доступе для исследователей по всему миру, в которой искусственный интеллект (ИИ) обучается принимать решения и выполнять новые действия не «с нуля», что требовало бы длительного обучения, а взаимодействуя с окружающей средой, используя подсказки и контекст.

Эксперименты в XLand-MiniGrid уже провели исследователи из Google DeepMind, Калифорнийского университета в Беркли и Оксфордского университета. Научная статья, описывающая создание среды, была принята на крупнейшую международную конференцию в области искусственного интеллекта — NeurIPS 2024, конференция пройдет 10 — 15 декабря в Ванкувере (Канада), рассказали в T-Bank AI Research.

«Мы пришли в область контекстного обучения с подкреплением, когда она еще зарождалась, и поэтому не нашли ни одного подходящего инструмента для оценки новых идей. Стало понятно, что это проблема для многих специалистов, а значит, она должна быть решена одной из первых. Поэтому появился XLand-MiniGrid. Наша работа сразу привлекла внимание других исследователей в области», — рассказал исследователь научной группы AI Alignment (входит в T-Bank AI Research) Вячеслав Синий.

XLand-MiniGrid ускорит создание новых алгоритмов, говорит руководитель научной группы «Адаптивные агенты» Института AIRI Владислав Куренков. «Контекстное обучение с подкреплением — одна из самых многообещающих областей науки в сфере ИИ, потому что позволяет получать агентов, адаптирующихся к новым сценариям “на лету” на основе внешнего фидбэка. Среда, которую мы разработали, позволит значительно ускорить сравнение и создание новых алгоритмов в этой области», — сказал Куренков, его слова приводятся в сообщении.

Области применения.

Отмечается, что In-Context RL особенно полезны в таких областях, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется мгновенная адаптация к новым условиям.

При этом In-Context RL крупных компаний закрыты для внешних пользователей, а публично доступные инструменты в основном предлагают однотипные и легкие задачи для обучения, что затрудняет разработку и тестирование сложных алгоритмов.

В отличие от других существующих сред, XLand-MiniGrid находится в открытом доступе и позволяет менять условия обучения прямо в процессе работы. Это упрощает моделирование множества вариативных задач разного уровня сложности, помогает создавать более надежные и адаптивные модели искусственного интеллекта, говорится в сообщении.

Среда создана на базе JAX — технологии для разработки высокопроизводительных программ. В отличие от более медленных аналогов, XLand-MiniGrid выполняет миллиарды операций в секунду, отмечают в T-Bank AI Research.

«В XLand-MiniGrid собрано 100 млрд примеров действий искусственного интеллекта в 30 тыс. задач. Это позволяет использовать готовые дата-сеты для обучения, а не проводить его каждый раз “с нуля”. Все это способствует новым открытиям в области In-Context RL, снижая затраты и экономя ресурсы на проведение исследований», — говорится в сообщении.