書店員向け情報 HELP
出版者情報
在庫ステータス
取引情報
回帰分析
- 出版社在庫情報
- 在庫あり
- 初版年月日
- 2023年9月30日
- 書店発売日
- 2023年9月30日
- 登録日
- 2023年8月4日
- 最終更新日
- 2023年10月4日
紹介
人口知能AIの数学基礎である
回帰分析が使いこなせるようになる!
データサイエンスで重要な統計検定の手法も学べる。
既存のデータをもとに、
目的の数値を予測する手法をていねいに解説!
統計の基本である正規分布、t 分布、χ2 乗分布、F 分布、
統計解析へどのように利用されるかを理解できる。
そして、回帰分析の結果はどれだけ信頼できるのか?
この1冊で、データ分析の基礎から応用までを体験できる。
目次
はじめに ················································· 3
第1章 データの相関 ····································· 11
1. 1. データ間の相関 11
1. 2. 共分散 12
1. 3. 標準偏差と相関係数 19
1. 4. 規格化 23
1. 5. 分散 26
第2章 線形回帰 ········································· 33
2. 1. 回帰分析とは 33
2. 2. 最小2乗法 33
2. 3. 正規方程式 40
2. 4. 回帰式の計算 43
2. 5. 独立変数と従属変数 44
2. 6. 相関係数と標準偏差 48
2. 7. 決定係数 50
2. 8. 最小2乗法の2次式への応用 54
2. 9. 略記法と行列 60
2. 10. 級数展開 64
第3章 曲線の回帰 ··········································· 66
3. 1. 指数曲線 ― 半対数の場合 66
3. 2. 指数曲線 ― 両対数の場合 73
3. 3. 分数関数 77
3. 4. その他の関数 83
3. 4. 1. 対数関数 83
3. 4. 2. 無理関数 86
3. 5. ポアソンの法則 88
3. 6. ロジスティック曲線 91
第4章 重回帰分析 ··········································· 94
4. 1. 独立変数が2個の場合 94
4. 2. 重回帰式の拡張 107
4. 3. 一般の重回帰式 110
4. 4. 平方和積和による偏回帰係数の導出 111
第5章 確率分布と期待値 ···································· 122
5. 1. 誤差の分布 122
5. 2. 正規分布と標準偏差 124
5. 3. 正規分布の計算方法 127
5. 4. 確率変数の期待値 131
5. 5. 期待値と分散 135
第6章 推測統計 ············································· 141
6. 1. 母集団 141
6. 2. 標本データと母数 142
6. 3. 正規分布の特徴 146
6. 4. 信頼区間の求め方 149
6. 5. 標本分散と母分散 151
6. 6. 母平均の推定 152
6. 7. t分布による母平均の推定 154
6. 8. χ2分布による分散の検定 158
6. 9. F分布による分散の比の推定 163
6. 10. 正規分布の加法性 166
第7章 仮説検定 ············································· 171
7. 1. 統計における仮説検定 171
7. 2. 帰無仮説と対立仮説 172
7. 3. t検定 177
7. 4. χ2検定 ─ 母分散の検定 178
7. 5. F検定 ─ 分散の比の検定 182
第8章 回帰分析の検定 ······································ 185
8. 1. 回帰分析の誤差 185
8. 2. 回帰係数の不偏推定値 187
8. 3. 定数項の不偏推定値 191
8. 4. 回帰係数および定数項の検定 192
8. 4. 1. t分布による解析 193
8. 4. 2. 回帰係数aの分散 194
8. 4. 3. 定数項の分散 195
8. 5. 検定の手順 199
8. 6. 誤差の母分散 206
第9 章 相関の検定 ··········································· 209
9. 1. 相関係数の検定 209
9. 2. 相関係数の分布 214
9. 3. 変動の分解 215
9. 4. 変動の統計 219
9. 5. 決定係数 222
第10 章 分散分析 ─ 回帰式の検定 ···························· 224
10. 1. 回帰分析の変動 224
10. 2. 分散分析 226
10. 3. 重回帰式への応用 231
第11章 t分布の確率密度関数 ································ 237
11. 1. t分布の確率密度関数 238
11. 2. ガンマ関数 239
11. 3. t分布の形状 242
11. 4. t分布の平均と分散 244
11. 5. t分布の分散の導出 246
11. 6. 正規分布とt分布 248
11. 7. ベータ関数 250
第12章 χ2分布の確率密度関数······························· 255
12. 1. χ2の定義とは 255
12. 2. χ2分布の確率密度関数 256
12. 3. 自由度に依存した関数 258
12. 4. 期待値 262
12. 5. χ2分布の分散 264
12. 6. 標準偏差の不偏推定値 266
第13章 F分布の確率密度関数 ······························· 270
13. 1. F分布の確率密度関数 270
13. 2. F分布とt 分布 274
13. 3. F分布の期待値 277
13. 4. F分布の分散 281
前書きなど
はじめに
現在、データ駆動型社会 (Data driven society) の構築が重要視されている。な
にか物事を議論するときに、現状分析が重要である。その認識が異なれば、建設
的な議論などできないからである。その際、信頼性のある共通データを基礎とす
ることが大切である。政府が政策を決定する際にも、客観的データをもとに判断
することが重要である。
このような背景から、大学においては、データサイエンス (Data Science) を基
盤知識として必修科目に据えるところも増えている。
デジタル技術の進展により、大量のデータが集められるようになった。しかし、
データはあるだけでは何の意味も持たない。データサイエンスとは、大量のデー
タを解析して、意味のある情報や法則、関連性を導く手法を学ぶ学問である。
データ解析には多くの手法があるが、回帰分析 (regression analysis) は、その
基本のひとつである。まず、データになんらかの規則性があるかどうかの検証は
重要である。それでは、2 組のデータ ( x, y) があり、それらの間の関係を定量的
に調べるにはどうしたらよいであろうか。その第一歩は、2 変数間に相関がある
かどうかを調べることである。この指標として相関係数 (correlation coefficients)
を利用する。本書では、その導出方法と意味を学ぶ。
つぎに、これら変数の関係を
y = ax + b
という1 次式で近似することである。
この直線を回帰直線と呼んでいる。また、x を独立変数(説明変数)、y を従属
変数(目的変数)と呼ぶ。 英語では、independent variable (explanatory variable) とdependent variable (response variable) となる。
この際、回帰係数a と定数項b のフィッティングに用いるのが、最小2 乗法
(least square method) である。この手法は、実際のデータと回帰直線から与えられ
る値の誤差の2 乗が最小になるようにa ならびにb を求めるものである。つま
り、これらを変数として、偏微分係数が0 という条件から値が得られる。
もちろん、2 組のデータが直線では近似できない場合もある。この場合は、2
次式や指数関数などが使われる。このときのフィッティングは曲線となるので、
回帰曲線 (regression curves) と呼んでいる。ただし、基本的な考えは1 次式の場
合とまったく同様である。
実は、回帰分析は、現在注目を集めている人工知能 (artificial intelligence : AI )
の基本でもある。機械学習 (machine learning) という手法では、回帰分析を行い、
回帰式のベストフィッティングを求める。いったん、2 変数の関係が数式で与え
られれば、データ範囲外の予測、たとえば、未来予測などが可能となる。これが、
AI の強力な武器となる。
ところで、回帰式の信頼性はどうなのであろうか。当然、データをもとに求め
ているので、データ数や分布などによって信頼度は異なるはずである。もし信頼
度が低ければ、その式を使うのは得策ではない。これを検証するために、統計学
の知識が必要となる。
本書では、統計の基礎となる正規分布 (normal distribution) の特徴を振り返っ
た後で、統計において重要な推測統計 (statistical estimate) と統計検定 (statistical
testing) の手法を学び、相関係数ならびに回帰式の回帰係数、定数項の統計的解
析に適用している。その際、必要なt 分布 (Student's t distribution)、χ2 分布 (χ2
distribution)、F 分布 (F distribution) について、その意味と、これら分布に対応し
た確率密度関数 (probability density function) も紹介している。
ところで、世の中の事象には、ひとつの独立変数だけでなく、いろいろな変数
が関係して従属変数に影響を与えていることも多い。よって回帰式の変数の数も
複数となる場合がある。たとえば、2 変数では、回帰式は
z = ax + by + c
となり、x とy が独立変数で、z が従属変数となる。
このように、変数が複数ある場合の分析を重回帰分析 (multiple regression
analysis) と呼んでいる。これに対し、変数が1 個の場合を単回帰分析 (simple
regression analysis) と呼ぶこともある。
重回帰分析は、基本的には単回帰分析の延長で簡単に理解できる。ただし、そ
の統計的検定には分散分析 (analysis of variance) という方法を利用する。AOV と
はじめに呼ぶ場合もある。この手法についても紹介する。
いずれ、回帰分析はデータサイエンスの基本であり、AI の機械学習の基本と
なっている。その威力を本書を通して実感していただければ幸甚である。
2023年 秋
著者 村上雅人、井上和朗、小林忍
版元から一言
高校数学から優しい橋渡し
理工数学シリーズ待望の第3弾!
既存のデータをもとに、
目的の数値を予測する手法をていねいに解説!
統計の基本である正規分布、t 分布、χ2 乗分布、F 分布、
統計解析へどのように利用されるかを理解できる。
そして、回帰分析の結果はどれだけ信頼できるのか?
この1冊で、データ分析の基礎から応用までを体験できる。
関連リンク
上記内容は本書刊行時のものです。