Как Reinforcement Learning улучшает рассуждения в LLM

Карта навыков
Узнайте, какими навыками должен обладатьИИ-разработчик

В своём выступлении на Data Fest Миле Митрович рассматривает, как метод обучения с подкреплением способствует улучшению способности к рассуждению у больших языковых моделей (LLM). Он объясняет механизмы, с помощью которых модели переходят от обработки токенов к более сложным формам мышления.