Память и online-RL: опыт YandexGPT 5.1

16 октября 2025

Алексей Колесов, CTO в Яндекс R&D, рассказывает, как они обучали YandexGPT 5.1 лучше помнить факты и применять знания о них. А ещё показывает, как наконец стабильно заработал online-RL. В докладе разбираются сложности обучения LLM на большом количестве фактов: недостаточное качество интернет-данных, проблемы запоминания и обработки редких фактов, а также необходимое количество повторений для усвоения информации моделью. Говорится про техники аугментации данных (переписывание, переформулировки, создание вопросов), которые помогают модели лучше запоминать и понимать факты, а также важность использования разных типов этих техник совместно. Значительное внимание уделено оптимизации и ускорению онлайн-обучения: используются алгоритмы GPO и динамический сэмплинг, оптимизируются батчи и процессы оценки для эффективности. Поднимаются вопросы о «человечности» ответов, о борьбе с нежелательными паттернами, а также перспективные технические направления — развитие синергии между знанием модели и её поисковыми возможностями.

Авторы

Алексей Колесов

Яндекс Образование — Личный кабинет

Память и online-RL: опыт YandexGPT 5.1

Ещё по теме

Компьютерное зрение в 2025-м / Роман Исаченко

Тренды в NLP, обзор ICLR и ACL / Александр Юшкевич

Голосовые технологии на Interspeech и ICASSP 2025 / Борис Шелудько

Главные тренды рекомендательных систем / Николай Савушкин

Открытие ML Global Recap 2025 / Алексей Гусаков

LLM/ML для генерации и персонализации коммуникаций в CRM / Василий Бронский и Александр Безуглый

Что такое ML-аналитика, или Как измерить качество LLM-продуктов / Таймураз Тибилов

Как нейросети режут сегменты лучше кухонного ножа / Никита Алексейчук и Никита Мастюгин

YaC 2025 AI Edition

Insightus: ваш партнёр — AI-аналитик. Архитектура, сложности, потенциал / Константин Бабалян

Компьютерное зрение в 2025-м / Роман Исаченко

Тренды в NLP, обзор ICLR и ACL / Александр Юшкевич

Голосовые технологии на Interspeech и ICASSP 2025 / Борис Шелудько