ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 学術雑誌論文
  2. 和雑誌

学習期間と制御期間に分割された強化学習問題における最適アルゴリズムの提案

https://kitami-it.repo.nii.ac.jp/records/8954
https://kitami-it.repo.nii.ac.jp/records/8954
1de18bef-0621-468e-a4da-dbee3390cb2c
名前 / ファイル ライセンス アクション
情報処理学会論文誌, 情報処理学会論文誌, 39(4), pp.1116-1126 (1.3 MB)
Item type 学術雑誌論文 / Journal Article(1)
公開日 2021-01-20
タイトル
タイトル 学習期間と制御期間に分割された強化学習問題における最適アルゴリズムの提案
言語 ja
タイトル
タイトル The Optimal Algorithms for the Reinforcement Learning Problem Separated into a Learning Period and a Control Period
言語 en
言語
言語 jpn
資源タイプ
資源 http://purl.org/coar/resource_type/c_6501
タイプ journal article
アクセス権
アクセス権 open access
アクセス権URI http://purl.org/coar/access_right/c_abf2
その他のタイトル
その他のタイトル The Optimal Algorithms for the Reinforcement Learning Problem Separated into a Learning Period and a Control Period
言語 en
著者 前田, 康成

× 前田, 康成

ja 前田, 康成
ISNI

en Maeda, Yasunari

Search repository
浮田, 善文

× 浮田, 善文

ja 浮田, 善文

Search repository
松嶋, 敏泰

× 松嶋, 敏泰

ja 松嶋, 敏泰

Search repository
平澤, 茂一

× 平澤, 茂一

ja 平澤, 茂一

Search repository
抄録
内容記述タイプ Abstract
内容記述 本研究では,遷移確率行列が未知であるようなマルコフ決定過程によってモデル化されている,学習期間と制御期間に分割された強化学習問題における,最適アルゴリズムの提案を行っている.従来研究では,真の遷移確率行列を同定できれば制御期間の収益を最大化できるため,学習期間の目的を単に未知の遷移確率行列の推定としているが,有限の学習期間のもとでは推定誤差があるため,収益最大化の厳密な保証はない.そこで本研究では,有限の学習期間と有限の制御期間の強化学習問題において,制御期間の収益をベイズ基準のもとで最大化する基本最適アルゴリズムを提案する.しかし,基本最適アルゴリズムの計算量が指数オーダーのため,さらにその改良を行い,改良最適アルゴリズムを提案する.改良最適アルゴリズムは基本最適アルゴリズム同様に収益をベイズ基準のもとで最大化することができ,かつその計算量は多項式オーダーに軽減されている.
抄録
内容記述タイプ Abstract
内容記述 [ENG]
In this paper,new algorithms are proposed based on statistical decision theory in the field of Markov decision processes under the condition that a transition probability matrix is unknown.In previous researches on RL(reinforcement learning),learning is based on only the estimation of an unknown transition probability matrix and the maximum reward is not received in a finite period,though their purpose is to maximize a reward.In our algorithms it is possible to maximize the reward within a finite period with respect to Bayes criterion.Moreover, we propose some techniques to reduce the computational complexity of our algorithm from exponential order to polynomial order
書誌情報 情報処理学会論文誌
en : Transactions of Information Processing Society of Japan

巻 39, 号 4, p. 1116-1126, 発行日 1998-04-15
ISSN
収録物識別子タイプ PISSN
収録物識別子 1882-7764
item_3_source_id_189
収録物識別子タイプ NCID
収録物識別子 AN00116647
論文ID(NAID)
識別子タイプ NAID
関連識別子 110002722119
出版者
出版者 情報処理学会
著者版フラグ
言語 en
値 publisher
出版タイプ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
戻る
0
views
See details
Views

Versions

Ver.1 2021-03-01 06:11:31.027681
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3