-
Стрим про Reinforcement Learning
Стрим, на котором sim0nsays (Simon Kozlov) рассказывается про AlphaGo(Zero), policy gradients и вообще Deep Reinforcement Learning.
-
Обучение робота ходьбе при помощи нейронной сети
Это пример обучения с подкреплением при помощи Q-Learning и простой нейронной сети прямого распространения.
Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…