Разработана универсальная система машинного 3D-зрения для роботов

МОСКВА, 4 января. /ТАСС/. Исследователи из России разработали первую универсальную систему машинного зрения, способную распознавать трехмерные объекты и одинаково эффективно справляющуюся с любым набором тестов. Разработка найдет применение в робототехнике, дополненной реальности и 3D-сканировании, сообщила пресс-служба Института искусственного интеллекта AIRI.

«Ранее исследователи вынуждены были разрабатывать отдельные модели с уникальными настройками для каждой задачи по распознаванию объектов и каждого набора данных. Этот процесс не только значительно замедлял разработку, но и ограничивал возможности применения моделей. Разработка российских ученых устраняет эту проблему благодаря новой архитектуре модели, основанной на чистом трансформере-кодировщике», — говорится в сообщении.

Новый подход к реализации систем трехмерного машинного зрения был разработан руководителем научной группы «Пространственный интеллект» Института AIRI Антоном Конушиным и его коллегами. Как отмечают ученые, на сегодняшний день разработка этих систем ограничена тем, что для их обучения используются очень небольшие и разнородные наборы данных, которые крайне сложно объединить друг с другом.

«Количество объектов, которые можно распознать, зависит от конкретной сцены. Например, комнаты или квартиры. Входными данными для мультимодальных моделей служат 3D-модели, полученные с помощью датчиков глубины, которые сканируют помещения. На данный момент самый большой набор таких данных содержит около 7 тыс. сцен. Это очень мало по сравнению с миллионами или даже миллиардами изображений, используемых в генеративных моделях», — пояснил Конушин, чьи слова приводит пресс-служба института.

Российские ученые предположили, что эту проблему можно обойти, если создать модель ИИ, которая будет одинаково эффективно работать с разнородными наборами данных. Руководствуясь этой идеей, исследователи разработали новую универсальную архитектуру нейросети на базе чистого трансформера-кодировщика без оптимизаций под конкретные наборы данных, а также провели масштабную переразметку наборов данных, сократив число уникальных классов объектов, встречающихся во всех этих выборках.

Последующие эксперименты показали, что новую модель можно постепенно научить работать с большим числом разнородных наборов данных и одинаково эффективно распознавать объекты в разных типах «облаков точек», наборах координат, полученных при помощи лазерных радаров и других типов трехмерных сканеров. Новый подход, как надеются ученые, ускорит разработку систем трехмерного зрения и позволит улучшить качество их работы.