МОСКВА, 8 февраля. /ТАСС/. Российские ученые разработали новую модель искусственного интеллекта, способную распознавать эмоции в человеческой речи с высоким уровнем точности. Разработка исследователей значительным образом превзошла почти все существующие аналоги при работе с самыми сложными формами контента, сообщила пресс-служба Сбера.
«Исходный код модели доступен в открытом виде, поэтому другие ученые могут использовать инструмент в своих исследованиях, чтобы провести дополнительные эксперименты для проверки работы модели с другими языками и датасетами, повысить ее универсальность и применимость в реальных условиях. Так, модель можно обучать на русскоязычных эмоциональных корпусах и затем применять в голосовых помощниках и контакт-центрах», — говорится в сообщении.
Новый алгоритм, получивший название CA-SER, был разработан группой исследователей из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ. Созданная ими система искусственного интеллекта построена на базе парадигмы самообучения (SSL) и объединяет в себе сразу несколько подходов, которые сегодня активно используются при анализе устной речи и для распознавания эмоций.
Сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса, в том числе их громкость и тональность, с учетом того, какую часть аудиоспектра лучше всего воспринимает человек. Эти два типа информации объединяются с помощью специального механизма, эффективно соединяя общие характеристики речи с ее детальными особенностями, что помогает точнее определять эмоции говорящего человека.
Работу данной системы ИИ и еще девяти других аналогичных проектов российские ученые проверили при помощи образцов из базы данных IEMOCAP. Она включает в себя обширный набор аудиозаписей, видеоклипов, расшифровок текстов и других мультимедиа-данных, связанных с большим числом человеческих эмоций.
Эти тесты показали, что разработка российских ученых значительно превзошла почти все другие систем ИИ и оказалась сопоставима с более сложно устроенной нейросетью-трансформером HuBERT от компании Facebook (запрещен в России; принадлежит корпорации Meta, признанной в РФ экстремистской). Как надеются ученые, их разработка значительно улучшит работу голосовых помощников и других цифровых систем, где необходимо корректно распознавать эмоции пользователей.