МОСКВА, 6 декабря. /ТАСС/. Российские исследователи разработали две системы ИИ, способные выявлять сгенерированные нейросетями вставки в текстах на научную тематику. В перспективе подобные модели помогут в проверке оригинальности и достоверности научных публикаций, сообщила пресс-служба НИУ ВШЭ.
«Команда исследователей создала две модели для обнаружения в научных текстах частей, сгенерированных искусственным интеллектом. В системе AIpom соединены два типа моделей — декодер и энкодер, что позволяет ей эффективнее находить сгенерированные вставки. Система Papilusion подходит для распознания исправлений с помощью синонимов и кратких пересказов, сгенерированных нейросетью, в работе она использует модели одного типа — энкодеры», — говорится в сообщении.
Обе системы разработаны группой под руководством стажера-исследователя НИУ ВШЭ (Москва) Александра Ширнина для решения стремительно приобретающей актуальность задачи — борьбы с генерацией текстов при помощи больших языковых моделей, таких как ChatGPT или GigaChat. В последнее время они используются при написании не только студенческих курсовых и дипломов, но и вымышленных научных работ, иногда попадающих в серьезные рецензируемые научные журналы.
Системы, созданные Ширниным и его коллегами, заняли второе (AIpom) и шестое (Papilusion) места на международном конкурсе SemEval-2024, на котором ученые должны были создать алгоритм, способный выявлять сгенерированный ИИ текст и распознавать «границы» между ним и реально написанным человеком текстом.
По словам Ширнина, сочетание двух разных типов нейросетей — декодеров и энкодеров — позволило значительно повысить эффективность системы AIpom. Декодер получает инструкции от пользователя и разбивает текст на предположительно созданные человеком и машиной фрагменты, а энкодер проверяет и уточняет эти оценки. Подобная двухступенчатая система проверки текстов позволила разработке Ширнина и его коллег обойти большинство других систем.
Как отметил ученый, качество работы созданных ими систем ИИ можно заметно повысить, если значительным образом расширить наборы естественных и сгенерированных текстов и данных, на которых проводилось их обучение. Это позволит выявлять машинный текст в более широком наборе научных статей и работ студентов, а также распознавать ситуации, в которых ИИ используется для дополнения текстов, их переформулировки и решения других сложных задач, подытожили исследователи.