МГУ и Яндекс улучшили грамматическую точность YandexGPT

Крупные языковые модели демонстрируют впечатляющие результаты в генерации текстов, однако все еще часто допускают ошибки в грамматике, пунктуации и орфографии русского языка. Причина в том, что открытые датасеты, используемые для их обучения, обычно содержат недостаточно примеров сложных языковых конструкций.

Комплексный датасет для сложных правил

Специалисты Института искусственного интеллекта МГУ совместно с экспертами Яндекса разработали уникальный открытый датасет, включающий 48 сложных правил русского языка. В основу вошли правила, знание которых традиционно проверяется на ЕГЭ и олимпиадах: например, пунктуационные трудности в сложноподчиненных предложениях, случаи слитного и раздельного написания частицы «не» и нюансы согласования сказуемого с подлежащим в сложных синтаксических конструкциях.

«К созданию датасета были привлечены студенты-лингвисты и использовалась авторитетная справочная литература. Мы подготовили тысячу наглядных примеров, где каждая ошибка не просто исправлена, но и снабжена пояснением соответствующего правила», — пояснил представитель научного коллектива.

Инновационный подход к обучению моделей

Для эффективного обучения нейросетей исправлению подобных сложных ошибок без полного переобучения исследователи представили новый метод Retrieval-Augmented Generation (генерация, усиленная поиском). Дообученная модель GECTOR находит в созданном датасете LORuGEC предложения с идентичным типом ошибки из запроса. Это позволяет точнее «подсказывать» крупной языковой модели, как исправить именно этот недочет. Например, при пропуске запятой перед «что», модель получит именно такой пример ошибки, избегая избыточных правок и меняя лишь проблемную часть текста.

Проверка на практике и рост точности

Яндекс протестировал новый подход на своих моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах, доказав его универсальность. Результаты порадовали: точность коррекции сложных ошибок увеличилась на 5-10% по метрике F0,5 — глобальному стандарту оценки грамматической корректности. Так, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%.

Признание научного сообщества и презентация на ведущем форуме

«Этот продукт — яркий пример плодотворного сотрудничества между академической наукой и технологическим бизнесом. Совмещение экспертизы лингвистов университета и инженеров компании позволило создать реально работающее решение, глубоко понимающее нюансы русского языка», — подчеркнули разработчики. Метод и датасет официально представлены на престижной конференции ACL 2025 и удостоены награды за лучшее исследование на воркшопе по инновациям в образовании. Наряду с российскими разработчиками свои достижения там представили ведущие мировые корпорации, включая Google, Apple и IBM.

Прорывная технология стала одной из ключевых тем на Конгрессе молодых ученых — главном событии в рамках Десятилетия науки и технологий в России, проходящем в эти дни в Университете «Сириус». Успешные испытания YandexGPT знаменуют новую эру в развитии языковых моделей для русского языка.

Источник: naked-science.ru

МГУ и Яндекс улучшили грамматическую точность YandexGPT

Комплексный датасет для сложных правил

Инновационный подход к обучению моделей

Проверка на практике и рост точности

Признание научного сообщества и презентация на ведущем форуме

Похожие новости на нашем сайте: