Память и online-RL: опыт YandexGPT 5.1

Алексей Колесов, CTO в Яндекс R&D, рассказывает, как они обучали YandexGPT 5.1 лучше помнить факты и применять знания о них. А ещё показывает, как наконец стабильно заработал online-RL. В докладе разбираются сложности обучения LLM на большом количестве фактов: недостаточное качество интернет-данных, проблемы запоминания и обработки редких фактов, а также необходимое количество повторений для усвоения информации моделью. Говорится про техники аугментации данных (переписывание, переформулировки, создание вопросов), которые помогают модели лучше запоминать и понимать факты, а также важность использования разных типов этих техник совместно. Значительное внимание уделено оптимизации и ускорению онлайн-обучения: используются алгоритмы GPO и динамический сэмплинг, оптимизируются батчи и процессы оценки для эффективности. Поднимаются вопросы о «человечности» ответов, о борьбе с нежелательными паттернами, а также перспективные технические направления — развитие синергии между знанием модели и её поисковыми возможностями.