НОВОСИБИРСК, 28 ноября. /ТАСС/. Алгоритм для определения деструктивной информации в интернете на русском и казахском языках разработали ученые Новосибирского государственного университета (НГУ) совместно с коллегами из Казахстана. Об этом сообщил ТАСС профессор, заведующий кафедрой математического моделирования механико-математического факультета Новосибирского государственного университета (НГУ) Владимир Барахнин.
«Мы предложили анализ слов казахского языка на основе особенностей его морфологии. Благодаря его действию можно анализировать слова казахского языка. Алгоритм позволяет понять по слову, либо какова его начальная форма, либо наоборот по начальной форме сгенерировать другие формы слова. Это важно для смыслового анализа больших массивов текста, для интернет-поиска. Нами проведен анализ новостей в казахстанском сегменте интернета как на казахстанском, так и на русском языках, собран большой дата-сет с новостями. В частности, проводились исследования на предмет деструктивной информации. По некоторым признакам мы научились ее определять», — сказал он.
Как пояснил ученый, один из признаков такой информации был призыв к действиям. Деструктивная информация выявлялась также исходя из ее достоверности данных и тех выводов, которые на ее основе делали авторы публикаций. Для исследования был создан корпус казахстанских СМИ, содержащий более 4 млн публикаций из 36 первоисточников, каждый из которых имеет не менее 500 публикаций.
«Корпус также включает в себя более 2 млн текстов российских СМИ для сравнительного анализа публикационной активности стран. Деструктивная информация выявлялась методами машинного обучения и искусственного интеллекта на основании следующих критериев: отсутствие проверяемых фактов, политизация, призыв к действию, негативная тональность, манипулятивность», — отметил ученый в беседе с ТАСС.
Ученый пояснил, что в основе алгоритма лежит морфологический анализ текстов с учетом казахских языковых особенностей. «Для английского языка анализ слов достаточно прост, потому что в нем нет изменений по падежам, а в русском языке алгоритм анализа языка достаточно сложный, потому что у нас есть шесть падежей, единственное и множественное число. Казахский язык в этом смысле ближе к русскому, поскольку в нем также есть изменяющиеся окончания, категории падежа, числа и так далее, но в отличие от русского там за каждую грамматическую категорию отвечает отдельное окончание», — объяснил исследователь.
Сейчас ученые НГУ вместе с сотрудниками Казахского национального технического университета имени К. И. Сатпаева разрабатывают онтологию области обработки естественного языка на трех языках. Разработку планируется использовать для обучения больших языковых моделей. Это позволит ей обучаться сразу на трех языках, не теряя в качестве усваиваемой информации. «Разрабатываемые алгоритмы позволят переносить знания, полученные из английских источников в модели на русском или на казахском или наоборот», — дополнил Барахнин.