Запишетесь на полный курс Машинного обучения на Python по адресу support@ittensive.com
Пікірлер: 1
@ЮрийГребеников Жыл бұрын
Т.е., если мы выберем действие a1 с меньшим ревардом, то сожалеть будем меньше? 1 / (1+2+3+4) = 0.1 Я вероятно до конца не понимаю, и, возможно, я ошибаюсь, но на данный момент я бы представил сожаление так: ( 5 - a) / ( a1+a2+a3+a4)