МОСКВА, 11 апреля. /ТАСС/. Исследователи из России и США, Австрии и Саудовской Аравии разработали подход, позволяющий быстро квантизировать — особым образом сжимать — большие языковые модели, что позволит использовать их не только на серверах, но и на телефонах и прочих устройствах с ограниченным объемом памяти. Об этом сообщила пресс-служба «Яндекс образования».
«За последние несколько лет благодаря подобным оптимизациям средняя цена использования LLM заметно сократилась — примерно в четыре раза. Наш метод квантизации простой и эффективный, что делает его удобным для адаптации моделей под разные устройства и задачи. Это особенно полезно для небольших компаний и индивидуальных разработчиков, которые хотят использовать большие языковые модели, но не имеют доступа к дорогостоящему оборудованию», — сообщил ТАСС преподаватель Школы анализа данных «Яндекса» Андрей Панферов.
Как отмечают Панферов и его коллеги из лаборатории Yandex Research, за последние несколько лет было создано большое число систем ИИ на базе больших языковых моделей — особого класса нейросетей, для тренировки которых используются огромные объемы данных. В их число, помимо ChatGPT, входит большое число открытых алгоритмов, в том числе популярная система ИИ DeepSeek-R1, нейросети из семейств LLаMA и Qwen, а также различные разработки российских ученых.
Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов и объемов памяти. К примеру, DeepSeek-R1 сложно запустить даже на дорогостоящих серверах, предназначенных для работы с искусственным интеллектом и машинным обучением. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.
Ученые из России, Австрии, США, и Саудовской Аравии разработали алгоритм HIGGS, который позволяет одновременно уменьшать размеры больших языковых моделей и при этом сохранять высокое качество их работы. Ключевой его особенностью является то, что он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели.
Первые проверки этого подхода на популярных моделях Llama 3 и Qwen2.5 показали, что разработка российских и зарубежных исследователей превосходит все популярные методы квантизации, не требующие использования данных. «Яндекс» уже сам применяет новый метод для прототипирования продуктов, причем для запуска и работы HIGGS не требуются дорогостоящие сервера и недели машинного времени — теперь квантизацию можно выполнить прямо на телефоне или ноутбуке. Это значительно ускорит разработку и внедрение больших языковых моделей, подытожили ученые.