WEKO3
アイテム
学習期間と制御期間に分割された強化学習問題における最適アルゴリズムの提案
https://kitami-it.repo.nii.ac.jp/records/8954
https://kitami-it.repo.nii.ac.jp/records/89541de18bef-0621-468e-a4da-dbee3390cb2c
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
|
| Item type | 学術雑誌論文 / Journal Article(1) | |||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2021-01-20 | |||||||||||||||
| タイトル | ||||||||||||||||
| タイトル | 学習期間と制御期間に分割された強化学習問題における最適アルゴリズムの提案 | |||||||||||||||
| 言語 | ja | |||||||||||||||
| タイトル | ||||||||||||||||
| タイトル | The Optimal Algorithms for the Reinforcement Learning Problem Separated into a Learning Period and a Control Period | |||||||||||||||
| 言語 | en | |||||||||||||||
| 言語 | ||||||||||||||||
| 言語 | jpn | |||||||||||||||
| 資源タイプ | ||||||||||||||||
| 資源 | http://purl.org/coar/resource_type/c_6501 | |||||||||||||||
| タイプ | journal article | |||||||||||||||
| アクセス権 | ||||||||||||||||
| アクセス権 | open access | |||||||||||||||
| アクセス権URI | http://purl.org/coar/access_right/c_abf2 | |||||||||||||||
| その他のタイトル | ||||||||||||||||
| その他のタイトル | The Optimal Algorithms for the Reinforcement Learning Problem Separated into a Learning Period and a Control Period | |||||||||||||||
| 言語 | en | |||||||||||||||
| 著者 |
前田, 康成
× 前田, 康成
× 浮田, 善文
× 松嶋, 敏泰
× 平澤, 茂一
|
|||||||||||||||
| 抄録 | ||||||||||||||||
| 内容記述タイプ | Abstract | |||||||||||||||
| 内容記述 | 本研究では,遷移確率行列が未知であるようなマルコフ決定過程によってモデル化されている,学習期間と制御期間に分割された強化学習問題における,最適アルゴリズムの提案を行っている.従来研究では,真の遷移確率行列を同定できれば制御期間の収益を最大化できるため,学習期間の目的を単に未知の遷移確率行列の推定としているが,有限の学習期間のもとでは推定誤差があるため,収益最大化の厳密な保証はない.そこで本研究では,有限の学習期間と有限の制御期間の強化学習問題において,制御期間の収益をベイズ基準のもとで最大化する基本最適アルゴリズムを提案する.しかし,基本最適アルゴリズムの計算量が指数オーダーのため,さらにその改良を行い,改良最適アルゴリズムを提案する.改良最適アルゴリズムは基本最適アルゴリズム同様に収益をベイズ基準のもとで最大化することができ,かつその計算量は多項式オーダーに軽減されている. | |||||||||||||||
| 抄録 | ||||||||||||||||
| 内容記述タイプ | Abstract | |||||||||||||||
| 内容記述 | [ENG] In this paper,new algorithms are proposed based on statistical decision theory in the field of Markov decision processes under the condition that a transition probability matrix is unknown.In previous researches on RL(reinforcement learning),learning is based on only the estimation of an unknown transition probability matrix and the maximum reward is not received in a finite period,though their purpose is to maximize a reward.In our algorithms it is possible to maximize the reward within a finite period with respect to Bayes criterion.Moreover, we propose some techniques to reduce the computational complexity of our algorithm from exponential order to polynomial order |
|||||||||||||||
| 書誌情報 |
情報処理学会論文誌 en : Transactions of Information Processing Society of Japan 巻 39, 号 4, p. 1116-1126, 発行日 1998-04-15 |
|||||||||||||||
| ISSN | ||||||||||||||||
| 収録物識別子タイプ | PISSN | |||||||||||||||
| 収録物識別子 | 1882-7764 | |||||||||||||||
| item_3_source_id_189 | ||||||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||||||
| 収録物識別子 | AN00116647 | |||||||||||||||
| 論文ID(NAID) | ||||||||||||||||
| 識別子タイプ | NAID | |||||||||||||||
| 関連識別子 | 110002722119 | |||||||||||||||
| 出版者 | ||||||||||||||||
| 出版者 | 情報処理学会 | |||||||||||||||
| 著者版フラグ | ||||||||||||||||
| 言語 | en | |||||||||||||||
| 値 | publisher | |||||||||||||||
| 出版タイプ | ||||||||||||||||
| 出版タイプ | VoR | |||||||||||||||
| 出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||||||||||