速習強化学習 (ソクシュウキョウカガクシュウ) 基礎理論とアルゴリズム (キソリロントアルゴリズム)

コンピュータ

Csaba Szepesvari (チョバサパシバリ)(著/文)小山田創哲 (コヤマダソウテツ)(編集 | 翻訳)前田新一 (マエダシンイチ)(翻訳)小山雅典 (コヤママサノリ)(翻訳)池田春之介 (イケダシュンノスケ)(翻訳)大渡勝己 (オオトカツキ)(翻訳)芝慎太朗 (シバシンタロウ)(翻訳)関根嵩之 (セキネタカユキ)(翻訳)高山晃一 (タカヤマコウイチ)(翻訳)田中一樹 (タナカイッキ)(翻訳)西村直樹 (ニシムラナオキ)(翻訳)藤田康博 (フジタヤスヒロ)(翻訳)望月駿一 (モチヅキシュンイチ)(翻訳)

発行：共立出版

B5変型判

160ページ

定価 3,000円+税

ISBN: 978-4-320-12422-6 COPY
ISBN 13: 9784320124226 COPY
ISBN 10h: 4-320-12422-7 COPY
ISBN 10: 4320124227 COPY
出版者記号: 320 COPY

Cコード: C3041; 3:専門 0:単行本 41:数学

書店発売日: 2017年9月21日
登録日: 2017年8月23日
最終更新日: 2017年8月29日

紹介

　GoogleのAlphaGoによるプロ棋士打破は，人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく，自動運転やロボット制御などの重要な分野への応用も知られ，いま世間の強い関心を集めている。その一方，日本語で強化学習を体系的に学べる教科書は多くはなく，代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。
　本書はトップ会議のチュートリアルで利用されたり，2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように，入門書として広く読まれている良書である。本書の内容は動的計画法などの基本的かつ重要なアルゴリズムに始まり，比較的新しい手法も体系的に網羅しつつもコンパクトに自己完結している。原著の出版から7年あまり経つが，近年の発展は本書で掲載されたアルゴリズム・アイデアをその基礎においている。特に本書では，深層学習を利用した深層強化学習を含む最近の発展に，本書で紹介されたアルゴリズムがどのように使われているかを解説した訳者補遺を追加することで，本書と最先端の研究との橋渡しをしている。

第1章　マルコフ決定過程
1.1　本書の表記と前提とする知識
1.2　マルコフ決定過程
1.3　価値関数
1.4　MDPを解くための動的計画法

第2章　価値推定問題
2.1　有限な状態空間でのTD学習
　2.1.1　テーブルTD(0)法
　2.1.2　逐一訪問モンテカルロ法
　2.1.3　TD(λ)法: モンテカルロ法とTD(0)法の統一
2.2　大規模状態空間でのアルゴリズム
　2.2.1　関数近似を用いたTD(λ)法
　2.2.2　勾配TD学習 (gradient temporal difference learning)
　2.2.3　最小二乗法
　2.2.4　関数空間の選択

第3章　制御
3.1　学習問題一覧
3.2　閉ループでの対話型学習
　3.2.1　バンディット問題における探索活用並行学習
　3.2.2　バンディット問題における純粋探索学習
　3.2.3　マルコフ決定過程における純粋探索学習
　3.2.4　マルコフ決定過程における探索活用並行学習
3.3　直接法
　3.3.1　有限MDPにおけるQ学習
　3.3.2　関数近似器を用いたQ学習
3.4　Actor-critic法
　3.4.1　Criticの実装
　3.4.2　Actorの実装

第4章　さらなる勉強のために
4.1　参考文献
4.2　応用
4.3　ソフトウェア
4.4　謝辞

付録A　割引マルコフ決定過程の理論
A.1　縮小写像とバナッハの不動点定理
A.2　MDPへの適用

付録B　TD(λ)法の前方観測的な見方と後方観測的な見方について

付録C　深層強化学習を含む最近の発展
C.1　深層強化学習のための深層学習
　C.1.1　ニューラルネットワークを用いた関数近似
　C.1.2　CNN (convolutional neural network)
C.2　価値反復に基づく強化学習アルゴリズムにおける発展
　C.2.1　DQN (deep Q-network)
　C.2.2　Double DQN
　C.2.3　デュエリングネットワーク (dueling network)
　C.2.4　優先順位付き経験再生 (prioritized experience replay)
C.3　方策反復に基づく強化学習アルゴリズムにおける発展
　C.3.1　A3C (asynchronous advantage actor-critic)
　C.3.2　TRPO (trust region policy optimization)
　C.3.3　GAE (generalized advantage estimator)
C.4　深層強化学習の囲碁AIへの応用: AlphaGo
　C.4.1　強化学習問題としての囲碁
　C.4.2　深層ニューラルネットワークの学習
　C.4.3　深層ニューラルネットワークを使ったモンテカルロ木探索法による着手の選択
C.5　おわりに

参考文献

索　引

上記内容は本書刊行時のものです。

オンライン書店で購入

ｈｏｎｔｏ
紀伊國屋 Web Store
ヨドバシ.com
HonyaClub.com
セブンネットショッピング
e-hon
HMV
TSUTAYA
Yahoo!ショッピング
アマゾン
アマゾンの在庫情報について
発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。

本商品の購入においては、購入の時点でAmazon.co.jpに表示されている価格および発送可能時期の情報が適用されます。

本サイト上で表示されるコンテンツの一部は、アマゾンジャパン合同会社またはその関連会社により提供されたものです。

これらのコンテンツは「現状有姿」で提供されており、随時変更または削除される場合があります。

版元ドットコムは、Amazonアソシエイトとして適格販売によりアフィリエイト収入を得ています。

プライバシーポリシーはこちら

書店員向け情報 HELP

出版者情報

書店注文情報

速習強化学習 (ソクシュウキョウカガクシュウ) 基礎理論とアルゴリズム (キソリロントアルゴリズム)

紹介

目次

OpenBSが利用できません！

ご注文はこちらから

オンライン書店で購入

書店の店頭在庫を確認

書店員向け情報 HELP

出版者情報

書店注文情報

速習 強化学習 (ソクシュウキョウカガクシュウ) 基礎理論とアルゴリズム (キソリロントアルゴリズム)

紹介

目次

OpenBSが利用できません！

ご注文はこちらから

オンライン書店で購入

書店の店頭在庫を確認

速習強化学習 (ソクシュウキョウカガクシュウ) 基礎理論とアルゴリズム (キソリロントアルゴリズム)