2020-10-19から1日間の記事一覧

RLlib を使ってナップサック問題を強化学習2

強化学習 Python

局所最適に陥っていたと思われる前回に対して、以下の改善案 ※ を思いついたので試してみました。より困難な目標を達成した場合に報酬（価値）へボーナスを加算 ※ 局所最適から脱して、より良い結果を目指す効果を期待今回のサンプルコードは http://git…