RLlib を使ってナップサック問題を強化学習2

強化学習 Python

局所最適に陥っていたと思われる前回に対して、以下の改善案 ※ を思いついたので試してみました。より困難な目標を達成した場合に報酬（価値）へボーナスを加算 ※ 局所最適から脱して、より良い結果を目指す効果を期待今回のサンプルコードは http://git…

2020-09-22

RLlib を使ってナップサック問題を強化学習

強化学習 Python

ナップサック問題へ強化学習を適用すると、どうなるのか気になったので試してみました。強化学習には、Ray に含まれている RLlib を使い、Jupyter Notebook 上で実行します。 Ray 0.8.7 今回のサンプルコードは http://github.com/fits/try_samples/tree/ma…

2019-06-03

多腕バンディット問題とトンプソンサンプリング

Python 強化学習

多腕バンディット問題に対してベイズ的な手法をとるトンプソンサンプリングに興味を惹かれたので、「テストの実行 - C# を使用した Thompson Sampling」を参考に Python で実装してみました。ソースは http://github.com/fits/try_samples/tree/master/blo…