Создана методика оценки компетентности ИИ в образовательных задачах

15 ноября,источник: ТАСС Наука

ИИ хорошо решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления.

МОСКВА, 15 ноября. /ТАСС/. Российские исследователи подготовили обширный набор тестов, который позволяет при помощи психометрических подходов максимально точно и всесторонне оценивать эффективность использования и компетентность систем искусственного интеллекта в качестве помощника учителя или ученика. Об этом сообщила пресс-служба НИУ ВШЭ.

«Мы разработали новый подход, который выходит за рамки традиционного тестирования. Наш подход проиллюстрирован специальным новым обширным тестом для языковых моделей, который нацелен на проверку ИИ в педагогике. Он строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности», — пояснила доцент Института образования НИУ ВШЭ Елена Карданова, чьи слова приводит пресс-служба вуза.

Как отмечают исследователи, появление большого числа систем ИИ на базе больших языковых моделей, способных решать очень широкий спектр задач, породило большой интерес к разработке инструментов, нацеленных на оценку эффективности их работу и всестороннюю проверку компетенций данного типа нейросетей. Проведение подобных проверок требует глубокого понимания той сферы, в которую ученые пытаются интегрировать ИИ.

Руководствуясь этой идеей, российские ученые заручились поддержкой со стороны ведущих экспертов в области педагогики и образования и совместно с ними разработали и протестировали более 3,9 тыс. уникальных заданий, разделенных на 16 профессиональных областей, включая методы преподавания, психологию образования и управление классом. Основой для создания этих тестов послужили методы психометрики, науки на стыке психологии, математики и педагогики, а также подходы, разработанные известным американским психологом Бенджамином Блумом.

Работу тестов ученые проверили в опытах с участием русскоязычной версии большой языковой модели GPT-4. Результаты показали, что модель испытывает трудности в более сложных заданиях, требующих глубины понимания и способности к адаптивному мышлению. Оказалось, что ИИ хорошо решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления, а также справляется далеко не со всеми даже самыми простыми теоретическими задачами.

«Разработанный нами подход позволяет наглядно показать ключевую проблему ИИ сегодня: никогда не знаешь, где ждать ошибки. Модель может ошибаться даже в простейших заданиях, которые могут считаться ядром дисциплины. Наш тест показывает ключевые проблемы и в области знаний, и в области прикладного применения, тем самым намечает путь к преодолению ключевых проблем. Устранять их критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников», — подытожил научный руководитель НИУ ВШЭ Ярослав Кузьминов, чьи слова приводит пресс-служба вуза.