Стрим про Reinforcement Learning


Стрим, на котором sim0nsays (Simon Kozlov) рассказывается про AlphaGo(Zero), policy gradients и вообще Deep Reinforcement Learning.

( Читать дальше )

Обучение робота ходьбе при помощи нейронной сети


Это пример обучения с подкреплением при помощи Q-Learning и простой нейронной сети прямого распространения.

( Читать дальше )