AlphaZero: ИИ за пределами наших знаний.

Обзор концепции «Эры Опыта», предложенной Дэвидом Силвером, ключевым разработчиком AlphaGo, которая выступает за переход ИИ от зависимости от человеческих данных к самостоятельному обучению на опыте. Силвер утверждает, что опора на человеческие знания, известная как «горький урок ИИ», активно ограничивает производительность, устанавливая «потолок» для сверхчеловеческого интеллекта. В качестве доказательства приводятся системы AlphaZero и AlphaProof, которые, используя обучение с подкреплением (RL) и самогенерируемый опыт, достигли прорывов, неизвестных людям, включая знаменитый Ход 37 в Го и результаты на уровне серебряной медали Международной математической олимпиады (IMO). Также обсуждаются ограничения текущего подхода RL с человеческой обратной связью (RLHF) в больших языковых моделях (LLM), который, по мнению Силвера, приводит к «необоснованным» выводам, не проверенным реальными последствиями. Дэвид Сильвер — главный научный сотрудник Google DeepMind и профессор Лондонского университетского колледжа. Он возглавлял исследования в области обучения с подкреплением с помощью AlphaGo, AlphaZero. The Era of Experience Paper (position paper):
Источник: • Is human data enough? With David Silver ИИ получает серебряную медаль за решение задач Международной математической олимпиады:
Сайт:
Wiki:
X (Twitter):
Telegram:
#ЭраОпыта #DavidSilver #ДэвидСилвер #AlphaGo #AlphaZero #AlphaProof #ОбучениеСПодкреплением #RL #Самообучение #СамогенерацияОпыта #ГорькийУрокИИ #СверхчеловеческийИнтеллект #Ход37 #IMO #LLM #RLHF #ОграниченияRLHF #DeepMind

Смотрите также