Создана методика оценки эффективности ИИ при работе с длинными текстами

При оценке качества работы ИИ бенчмарк оценивает две метрики: качество ответа и зависимость точности от длины контекста.

МОСКВА, 14 ноября. /ТАСС/. Исследователи из России и Великобритании создали инструмент, позволяющий оценивать реальную производительность систем ИИ на базе больших языковых моделей при работе с большими объемами данных на английском и русском языках. Его создание поможет разработчикам подобрать оптимальные параметры работы и обучения этих систем ИИ, сообщила пресс-служба Института AIRI.

«Данная разработка- важный шаг в оценке реальной эффективности языковых моделей. Наш бенчмарк не только позволяет сравнивать корректность работы моделей на разной длине контекста, но и служит индикатором их качества, что демонстрирует, в каких аспектах требуется улучшение. Это значительно поможет разработчикам новых моделей», — пояснил руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI Юрий Куратов, чьи слова приводит пресс-служба института.

Разработанный Куратовым и его коллегами, в том числе специалистами МФТИ, Лондонского института математических наук (LIMS) и SberDevices, инструмент представляет собой набор из двух десятков задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами.

При оценке качества работы той или иной системы ИИ бенчмарк оценивает две метрики: качество ответа и зависимость точности от длины контекста. Для получения подобной информации ученые приспособили популярный набор данных BABI, нацеленный на оценку понимания базовой логики и арифметики, а также подготовили набор отрывков и полных произведений из художественной литературы, в которые были встроены задачи, изначально рассчитанные на понимание коротких текстов.

В ходе экспериментов исследователи применили бенчмарк для анализа популярных моделей с открытым исходным кодом при различных длинах контекста. Проведенный анализ показал, что почти все популярные модели используют лишь 10−20% от общей длины контекста, и при этом качество их работы очень быстро падает при увеличении сложности задач, а также при росте объема данных. Это подчеркивает необходимость улучшения механизмов обработки контекстной информации., подытожили ученые.