版元ドットコム

探せる、使える、本の情報

文芸 新書 社会一般 資格・試験 ビジネス スポーツ・健康 趣味・実用 ゲーム 芸能・タレント テレビ・映画化 芸術 哲学・宗教 歴史・地理 社会科学 教育 自然科学 医学 工業・工学 コンピュータ 語学・辞事典 学参 児童図書 ヤングアダルト 全集 文庫 コミック文庫 コミックス(欠番扱) コミックス(雑誌扱) コミックス(書籍) コミックス(廉価版) ムック 雑誌 増刊 別冊
機械学習による音声認識 日本音響学会(編集) - コロナ社
..
【利用不可】

機械学習による音声認識 (キカイガクシュウニヨルオンセイニンシキ)

工業・工学
このエントリーをはてなブックマークに追加
発行:コロナ社
A5判
縦210mm 横148mm
324ページ
定価 4,800円+税
ISBN
978-4-339-01139-5   COPY
ISBN 13
9784339011395   COPY
ISBN 10h
4-339-01139-8   COPY
ISBN 10
4339011398   COPY
出版者記号
339   COPY
Cコード
C3355  
3:専門 3:全集・双書 55:電子通信
出版社在庫情報
不明
初版年月日
2021年5月6日
書店発売日
登録日
2021年3月3日
最終更新日
2021年4月19日
このエントリーをはてなブックマークに追加

紹介

音声認識は夢のテクノロジーである。人の言葉を聞き取り理解する技術は, 人間の真のパートナーとなるべき機械もしくはロボットを実現する鍵となる技術である。スマートスピーカーやスマートフォンのような製品とともに,急速に一般化しつつある音声認識であるが,人々の要求はいまも高度化し続けている。音声認識が身近になることで,「どのような状況で」「だれが」「どのようなことを」話しても認識できるようになることの重要性が,これまでより高まってきている。また,ほぼ人間と同精度での認識が可能になっ た現在,人間を超える認識精度への期待も高まりつつある。本書は,そのような期待に応えうる未来の技術を切り拓くために,必要な基礎知識を学ぶためのテキストである。

本書の特色として,有限状態トランスデューサと機械学習の関わりについて,広く解説している点がある。音声認識は機械学習の典型的な応用例の一つであるが,そのシステムの複雑性は他の機械学習技術と一線を画する。本書では,複雑なシステムを有限状態トランスデューサを用いて解説する。有限状態トランスデューサは複雑なシステムを簡潔に記述するための便利な概念であるのみではなく,今日の多くの音声認識ソフトウェアの実装において,基本構成要素として利用されており,今後ともに重要な基礎技術である。

本書の主たる想定読者は,音声認識の分野に携わる技術者,研究者,およびこの分野の研究を始めようとする学生である。近年のこの分野の急速な発展を鑑みるに,書籍という媒体で日々更新され続ける最先端をなぞるのは得策ではない。本書は,本書を手に取った読者が,論文やウェブなどによって最新の情報に触れる際,それらの理解をより深めることができるようにと執筆されたものである。近い将来,本書の読者と,より新しい技術について議論するのが楽しみである。

目次

1.本書の目的と事前知識
1.1 本書の目的
1.2 本書の構成
1.3 本書で用いる数式の表記
1.4 確率論の基礎
 1.4.1 周辺化
 1.4.2 条件付き確率
 1.4.3 独立性
 1.4.4 連続分布と確率密度関数

2.機械学習による予測
2.1 モデルによる予測
2.2 識別関数の構成
2.3 確率モデルの学習
2.4 最適化のアルゴリズム
 2.4.1 凸関数の最適化
 2.4.2 指数型分布族の最尤推定
 2.4.3 潜在変数モデルとEMアルゴリズム
 2.4.4 勾配に基づく局所最適化
2.5 例:身長と体重から学年を推定する
 2.5.1 生成モデルによるアプローチ
 2.5.2 識別モデルによるアプローチ
 2.5.3 識別関数法によるアプローチ
2.6 深層学習
 2.6.1 識別モデルの構成とソフトマックス層
 2.6.2 確率的勾配降下法
2.7 モデル選択と過学習
 2.7.1 過学習
 2.7.2 交差検証
 2.7.3 正則化
 2.7.4 アーリーストッピング
引用・参考文献

3.有限状態トランスデューサ
3.1 有限状態オートマトン
3.2 文法と辞書の表現
 3.2.1 重みの導入
 3.2.2 トランスデューサの導入
3.3 有限状態トランスデューサの数学的定義
 3.3.1 半環
 3.3.2 状態集合Qと状態遷移集合E
 3.3.3 初期状態Iと終了状態F
 3.3.4 遷移パスと重み
 3.3.5 FSTの等価性
 3.3.6 対数確率半環とFSTの確率的解釈
 3.3.7 FSTの連結,クリーネ閉包,和
3.4 合成
 3.4.1 合成演算のアルゴリズム
 3.4.2 合成演算の確率的解釈
 3.4.3 アルファベット列のFSTによる表現と合成演算
3.5 最短経路問題
3.6 FSTの最適化
 3.6.1 トリミング
 3.6.2 ε除去
 3.6.3 重みとラベルのプッシング
 3.6.4 決定化
 3.6.5 最小化
3.7 対数確率半環の重みを持つ非巡回FST上の期待値計算
 3.7.1 非巡回FSAのトポロジカルソート
 3.7.2 期待値計算
引用・参考文献

4.音声認識システム
4.1 音声認識システムの構成
4.2 音声の単位
 4.2.1 音素を介した音声認識の生成モデル
 4.2.2 発音辞書モデル
4.3 音声の分析
 4.3.1 音声信号のモデル
 4.3.2 離散フーリエ変換と周波数解析
 4.3.3 フィルタバンク処理
 4.3.4 ケプストラム抽出と無相関化
 4.3.5 対数エネルギー
 4.3.6 セグメント分析
4.4 音声認識システムの評価法
 4.4.1 認識精度の評価
 4.4.2 計算効率の評価
引用・参考文献

5.音響モデル
5.1 隠れマルコフモデル
 5.1.1 雨と水音のモデル
 5.1.2 複数のHMM状態を持つモデル
 5.1.3 雨の推定から音声認識へ
5.2 混合正規分布と連続分布型HMM
5.3 音素文脈依存モデル
 5.3.1 決定木による音素文脈クラスタリング
 5.3.2 決定木を用いた音響モデルのFSTによる表現
 5.3.3 凝集型クラスタリングによる質問の自動生成
5.4 ニューラルネットによる音響モデル
 5.4.1 再帰結合ニューラルネット
 5.4.2 ゲートユニットと長短期記憶
5.5 系列識別学習
 5.5.1 系列識別学習規準
 5.5.2 認識仮説を用いた最適化アルゴリズム
5.6 音響モデル適応の技術
 5.6.1 声道長正規化による適応
 5.6.2 話者コードの入力による適応
 5.6.3 再学習による適応
引用・参考文献

6.言語モデル
6.1 言語モデルとは
6.2 ユニグラム言語モデルとBag-of-words
6.3 Nグラム言語モデル
6.4 Nグラム言語モデルの学習と平滑化
 6.4.1 Nグラム言語モデルの最尤推定
 6.4.2 加算平滑化
 6.4.3 線形補間平滑化
 6.4.4 ウィトン・ベル平滑化
 6.4.5 グッド・チューリング推定法
 6.4.6 カッツ平滑化
 6.4.7 絶対割引法
 6.4.8 クニーザー・ナイ平滑化
6.5 Nグラム言語モデルのFSTによる表現
6.6 最大エントロピーモデルと識別的言語モデル
 6.6.1 最大エントロピー原理に基づく言語モデル
 6.6.2 文レベルの最大エントロピーモデル
 6.6.3 音声認識のための識別的言語モデル
6.7 ニューラルネット言語モデル
 6.7.1 ニューラルネットによる後続単語の予測
 6.7.2 単語の分散表現
 6.7.3 ニューラルネット言語モデルによるリスコアリング
引用・参考文献

7.大語彙連続音声認識
7.1 FSTの合成と確率モデル
 7.1.1 デコーディングネットワークの構成と探索誤り
 7.1.2 非曖昧化シンボル
7.2 大語彙連続音声認識の探索問題
7.3 大規模FST合成の技術
 7.3.1 オンザフライ合成
 7.3.2 ディスクベース認識システム
7.4 Nベストリストおよびラティスの生成
 7.4.1 ラティスの生成
 7.4.2 ラティスからのNベストリストの生成
引用・参考文献

8.深層学習の発展
8.1 さまざまなニューラルネット要素
 8.1.1 飽和しない活性化関数
 8.1.2 ドロップアウト
 8.1.3 バッチ正規化
 8.1.4 畳み込み層/プーリング層
8.2 ニューラルネットの高速化
 8.2.1 重みの量子化
 8.2.2 特異値分解による重み行列の圧縮
 8.2.3 蒸留によるモデル変換
8.3 End-to-end音声認識
 8.3.1 CTC
 8.3.2 エンコーダ-デコーダ型End-to-end音声認識
引用・参考文献

索引

上記内容は本書刊行時のものです。