Институт ИИиЦН НИУ ВШЭ внедряет ProcrustesGPT, сжимая ChatGPT и LLaMA.

Прорывные достижения больших языковых моделей — таких как ChatGPT, LLaMA и LLaMA2 — сделали их стандартом в задачах генерации текста, понимая речь, автоматическом переводе и анализе данных. Однако этот технологический прогресс сопровождается значительным ростом потребностей в памяти: вес современных моделей исчисляется десятками, а иногда и сотнями гигабайт. Такой размер становится барьером для широкого распространения искусственного интеллекта на мобильных устройствах, в IoT-среде и на персональных гаджетах. Поэтому решения по эффективному сжатию нейросетей становятся все более востребованными именно сейчас.

Почему классические способы сжатия не всегда эффективны

Применявшиеся ранее техники уменьшения размера моделей включали редукцию разрядности чисел (квантование), удаление незначимых параметров (разреживание), а также пересборку архитектуры. Перед такими подходами почти всегда стояла сложная задача — дообучение после сжатия, что требовало существенных вычислительных ресурсов и приводило к потере производительности или нестабильности вывода. Разработчики и исследователи долго искали способ, позволяющий без долгих процедур поддержки и сложной переподготовки сохранить высокое качество работы крупной языковой модели, но сделать ее на порядок легче.

Метод ProcrustesGPT: революция в сжатии моделей

В стенах НУЛ матричных и тензорных методов в машинном обучении Института ИИиЦН НИУ ВШЭ появилось новое решение — ProcrustesGPT. Его оригинальность заключается в применении ортогональных преобразований к внутренним весам модели. Ортогональные трансформации — это особого рода матричные операции, позволяющие «поворачивать» пространство параметров модели, не изменяя их относительных расстояний и не искажая конечный результат. Представьте лист бумаги, на котором нарисован треугольник: его можно вращать и переворачивать, угол и длины сторон от этого не изменятся. Именно этот строгий математический принцип позволил подготовить веса языковых моделей к особенно эффективному сжатию.

Ключевой идеей разработки становится задача Прокруста, где цель — подобрать то самое ортогональное преобразование, которое максимально приближает набор весов модели к компактному представлению при помощи специальных матриц — структурированных, таких как суммы кронекеровских произведений и GS-матрицы. Использование этих подходов значительно уменьшает объем памяти, которую занимает обученная модель, не затрагивая ее интеллектуальную мощь.

Практические результаты и эксперименты

Метод ProcrustesGPT был успешно испытан на популярных открытых моделях третьего поколения: OPT, LLaMA и LLaMA2. Что особенно важно, для применения ProcrustesGPT не требуется дополнительное дообучение, а процедура преобразования проходит за считанные минуты. В рамках экспериментов, выполненных командой из Института ИИиЦН, удалось добиться впечатляющего сокращения размеров моделей — на 25–36% по сравнению с изначальным объемом.

Эффективность новых “улегчённых” моделей проверяли по ключевым задачам: генерация связных текстов, логические вычисления, ответы на сложные вопросы. Потеря в качестве оказалась минимальной — в среднем результат достигал 90–95% от исходников, что является превосходным показателем для таких существенных масштабов сжатия.

ProcrustesGPT и конкурирующие подходы: преимущество инноваций

На рынке сжатия языковых моделей известен популярный подход SliceGPT. Он также не требует длительного переобучения, однако ProcrustesGPT демонстрирует заметное превосходство, особенно на тестах с LLaMA2. В ряде задач прирост точности по сравнению с ближайшими аналогами составил 9–10 пунктов процентов, что делает новую технологию оптимальным выбором для сжатия современных крупных языковых моделей.

Значение для индустрии и пользователей искусственного интеллекта

Запуск ProcrustesGPT открывает двери для интеграции сложных языковых нейросетей в гаджеты и электронные устройства, где ресурсы памяти и вычислительных мощностей ограничены. Теперь распознавание речи, обработка текстов и интеллектуальный анализ могут стать доступнее для смартфонов, корпоративных ноутбуков, систем умного дома и сенсоров IoT-будущего. За счет комбинирования точной математики и прикладных аспектов, разработка Российского Института ИИиЦН ускоряет проникновение интеллектуальных алгоритмов в повседневную жизнь, повышая удобство пользователей и создавая новые возможности для бизнеса.

Взгляд в будущее: новые горизонты компактных моделей

Появление ProcrustesGPT — это мотивирующий шаг не только для специалистов по машинному обучению, но и для широкой аудитории, заинтересованной во внедрении ИИ во всевозможные сферы деятельности. По мнению экспертов, методы сжатия, минимизирующие потери, уже в ближайшее время обеспечат быструю адаптацию интеллектуальных систем на устройствах с любым объемом памяти. Благодаря открытости кода ProcrustesGPT на GitHub и публикации результатов в ведущих научных сборниках, новая технология наверняка станет основой для будущих решений в сфере моделирования языка и интеллектуальных диалоговых систем.

Таким образом, ProcrustesGPT и успехи НУЛ матричных и тензорных методов в Институте ИИиЦН НИУ ВШЭ ознаменовали новый виток эволюции языковых моделей, делая их ближе, легче и доступнее для миллионов пользователей и разработчиков по всему миру.

Источник: naked-science.ru

Институт ИИиЦН НИУ ВШЭ внедряет ProcrustesGPT, сжимая ChatGPT и LLaMA.

Почему классические способы сжатия не всегда эффективны

Метод ProcrustesGPT: революция в сжатии моделей

Практические результаты и эксперименты

ProcrustesGPT и конкурирующие подходы: преимущество инноваций

Значение для индустрии и пользователей искусственного интеллекта

Взгляд в будущее: новые горизонты компактных моделей

Похожие новости на нашем сайте: