Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Обзор концепции «Эры Опыта», предложенной Дэвидом Силвером, ключевым разработчиком AlphaGo, которая выступает за переход ИИ от зависимости от человеческих данных к самостоятельному обучению на опыте. Силвер утверждает, что опора на человеческие знания, известная как «горький урок ИИ», активно ограничивает производительность, устанавливая «потолок» для сверхчеловеческого интеллекта. В качестве доказательства приводятся системы AlphaZero и AlphaProof, которые, используя обучение с подкреплением (RL) и самогенерируемый опыт, достигли прорывов, неизвестных людям, включая знаменитый Ход 37 в Го и результаты на уровне серебряной медали Международной математической олимпиады (IMO). Также обсуждаются ограничения текущего подхода RL с человеческой обратной связью (RLHF) в больших языковых моделях (LLM), который, по мнению Силвера, приводит к «необоснованным» выводам, не проверенным реальными последствиями. Дэвид Сильвер — главный научный сотрудник Google DeepMind и профессор Лондонского университетского колледжа. Он возглавлял исследования в области обучения с подкреплением с помощью AlphaGo, AlphaZero. The Era of Experience Paper (position paper): Источник: • Is human data enough? With David Silver ИИ получает серебряную медаль за решение задач Международной математической олимпиады: Сайт: Wiki: X (Twitter): Telegram: #ЭраОпыта #DavidSilver #ДэвидСилвер #AlphaGo #AlphaZero #AlphaProof #ОбучениеСПодкреплением #RL #Самообучение #СамогенерацияОпыта #ГорькийУрокИИ #СверхчеловеческийИнтеллект #Ход37 #IMO #LLM #RLHF #ОграниченияRLHF #DeepMind