Для чего нужен RLHF Примеры работы модели в диалоговом режиме без SFT и RL fine-tuning Как тюнить большие модели на одной карте SFT fine-tuning Обучение RM Дообучение модели с PPO Демонстрация результатов было vs стало Разбор концепций, которые использовали в ходе обучения (LoRA adapters, Int8 quantization, PPO, RM training loss, …)  Cсылка на  ноутбук: 
  Data Fest 2023: 
 Трек "Instruct Models":  
  Наши соц.сети: Telegram: 
 Вконтакте: 
https://vk.com/datafest