Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Как AI научился рассуждать | Reinforcement learning, reasoning models | Podlodka Podcast #439
Один из главных вау-эффектов текущего поколения LLM – когда ты впервые видишь, как AI рассуждает перед тем, как выдать ответ на сложный вопрос. Чтобы разобраться с тем, что происходит у таких моделей под капотом, как их обучают и верифицируют результаты работы, мы пригласили Евгения Никишина, исследователя из OpenAI, работающего над масштабированием reasoning моделей и test-time compute. Полезные ссылки: — Личный сайт Жени — Learning to reason with LLMs — Бумага “The Illusion of Thinking” от Apple — DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ❓ Хочешь обсудить выпуск или задать вопрос эксперту? Вступай в наш Telegram-чат: 📰 Не любишь чаты, но хочешь оставаться в курсе дел и прокачивать свой IT кругозор? Подписывайся на наш Telegram-канал: там публикуются анонсы новых выпусков, а в комментах идут ценные и горячие обсуждения! 5 тысяч опытных IT-специалистов уже с нами: 👉Предложить себя в подкаст Тайм-коды: 00:00 О чем выпуск 04:46 Что такое reasoning models 19:07 Подход к обучению модели GPT-3 22:21 Модель DeepSeek 25:50 Reinforcement learning и его отличия 32:50 Как reinforcement learning связан с ризонинг-моделями 36:54 Примеры применения reinforcement learning 40:50 Границы применимости reinforcement learning 47:26 Чему учат RL-модели? 53:36 Важность правильной награды 01:03:50 Пайплайн обучения reasoning models 01:08:20 Эффективность обучения модели с нуля 01:14:25 Процесс рассуждения модели 01:20:55 Проблема окна контекста 01:28:32 Прайсинг reasoning models 01:33:17 Параметры моделей и их влияние 01:41:40 Перенос навыков моделей 01:45:20 Тренды 01:54:18 Заключение