@article{oai:kitami-it.repo.nii.ac.jp:00008954, author = {前田, 康成 and 浮田, 善文 and 松嶋, 敏泰 and 平澤, 茂一 and MAEDA, Yasunari and UKITA, Yoshihumi and MATSUSHIMA, Toshiyasu and HIRASAWA, Shigeichi}, issue = {4}, journal = {情報処理学会論文誌, Transactions of Information Processing Society of Japan}, month = {Apr}, note = {本研究では,遷移確率行列が未知であるようなマルコフ決定過程によってモデル化されている,学習期間と制御期間に分割された強化学習問題における,最適アルゴリズムの提案を行っている.従来研究では,真の遷移確率行列を同定できれば制御期間の収益を最大化できるため,学習期間の目的を単に未知の遷移確率行列の推定としているが,有限の学習期間のもとでは推定誤差があるため,収益最大化の厳密な保証はない.そこで本研究では,有限の学習期間と有限の制御期間の強化学習問題において,制御期間の収益をベイズ基準のもとで最大化する基本最適アルゴリズムを提案する.しかし,基本最適アルゴリズムの計算量が指数オーダーのため,さらにその改良を行い,改良最適アルゴリズムを提案する.改良最適アルゴリズムは基本最適アルゴリズム同様に収益をベイズ基準のもとで最大化することができ,かつその計算量は多項式オーダーに軽減されている., [ENG] In this paper,new algorithms are proposed based on statistical decision theory in the field of Markov decision processes under the condition that a transition probability matrix is unknown.In previous researches on RL(reinforcement learning),learning is based on only the estimation of an unknown transition probability matrix and the maximum reward is not received in a finite period,though their purpose is to maximize a reward.In our algorithms it is possible to maximize the reward within a finite period with respect to Bayes criterion.Moreover, we propose some techniques to reduce the computational complexity of our algorithm from exponential order to polynomial order}, pages = {1116--1126}, title = {学習期間と制御期間に分割された強化学習問題における最適アルゴリズムの提案}, volume = {39}, year = {1998} }