Как AI научился рассуждать | Reinforcement learning, reasoning models | Podlodka Podcast #439

Один из главных вау-эффектов текущего поколения LLM – когда ты впервые видишь, как AI рассуждает перед тем, как выдать ответ на сложный вопрос. Чтобы разобраться с тем, что происходит у таких моделей под капотом, как их обучают и верифицируют результаты работы, мы пригласили Евгения Никишина, исследователя из OpenAI, работающего над масштабированием reasoning моделей и test-time compute. Полезные ссылки: — Личный сайт Жени
— Learning to reason with LLMs
— Бумага “The Illusion of Thinking” от Apple
— DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
— Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
❓ Хочешь обсудить выпуск или задать вопрос эксперту? Вступай в наш Telegram-чат:
📰 Не любишь чаты, но хочешь оставаться в курсе дел и прокачивать свой IT кругозор? Подписывайся на наш Telegram-канал: там публикуются анонсы новых выпусков, а в комментах идут ценные и горячие обсуждения! 5 тысяч опытных IT-специалистов уже с нами:
👉Предложить себя в подкаст
Тайм-коды: 00:00 О чем выпуск 04:46 Что такое reasoning models 19:07 Подход к обучению модели GPT-3 22:21 Модель DeepSeek 25:50 Reinforcement learning и его отличия 32:50 Как reinforcement learning связан с ризонинг-моделями 36:54 Примеры применения reinforcement learning 40:50 Границы применимости reinforcement learning 47:26 Чему учат RL-модели? 53:36 Важность правильной награды 01:03:50 Пайплайн обучения reasoning models 01:08:20 Эффективность обучения модели с нуля 01:14:25 Процесс рассуждения модели 01:20:55 Проблема окна контекста 01:28:32 Прайсинг reasoning models 01:33:17 Параметры моделей и их влияние 01:41:40 Перенос навыков моделей 01:45:20 Тренды 01:54:18 Заключение

Смотрите также