Exploratory コミュニティ

線形回帰のt検定を行うための条件について

#1

線形回帰のt検定について、以下2点をご教示いただきたくよろしくお願いします。

・偏回帰係数のt検定を行うための条件は「残差が正規分布に従うこと」という理解はあっていますでしょうか。
・(上記理解があっている場合)本来、誤差が正規分布に従うと仮定することで、偏回帰係数が正規分布に従いt検定を行うことができます。
そのため、t検定を行うための条件は「誤差が正規分布に従うこと」であるが、母集団を取得することがでいないので、誤差を知ることができません。
なので、誤差の代わりに残差を用いて、t検定を行うための条件を「残差が正規分布に従うこと」としているという理解であっていますでしょうか。

#2

こちら、私の理解にもとづいてお答えさせていただきます。

  1. 偏回帰係数のt検定を行うための条件は「残差が正規分布に従うこと」という理解はあっていますでしょうか。

正しいと思いますが、「残差が正規分布に従うこと」は係数のt検定ができる条件と捉えるより、線形回帰分析自体が持つ仮定と捉えるのがよいのではないかと思います。
線形回帰分析自体が持つ仮定なので、線形回帰分析の結果の一つである係数のt検定の条件でもあるという関係性になると思います。

  1. 誤差が正規分布に従うと仮定することで、偏回帰係数が正規分布に従いt検定を行うことができます。…

t検定という言葉は、検定統計量の分布がt分布になる検定の総称となっていて、そこに属する具体的な検定として「一群のt検定」、「独立二群の平均値の差の検定」、「回帰分析の係数の検定」の3つが主なものとしてあるという状況になっています。逆に言うと、検定統計量の分布がt分布になるということを共通点として持つだけの3つの異なる検定だと考えていいと思います。
対象となる値が正規分布するのが前提、というのは「一群のt検定」や「独立二群の平均値の差の検定」の場合の話なので、ここから出発して「回帰分析の係数の検定」を説明しようとするのはやや無理がある話のように思えます。
「回帰分析の係数の検定」は、似たところはあるものの、他の2つの検定とは別の理論にもとづいたものだと考えるのが妥当なのではないかと思います。

#4

■質問1
上記の捉え方について承知いたしました。
線形回帰分析自体が持つ仮定である「残差が正規分布に従うこと」に関して質問2にも関連しますが、
この仮定はどこからきたのかについて、私の理解は以下の通りですが、解釈の仕方に問題ないでしょうか。

母集団を表した式:y=α+βx+u (u:誤差)
回帰分析では、誤差uが平均「0」分散「σ^2」の正規分布に従うことを仮定している。
βの推定量bを式展開すると、y及びuの1次式で表すことができるので、bは正規分布に従う。(yは平均「α+βx」分散「σ^2」の正規分布に従う)
また確率変数bの平均は「β」となる。
よって正規分布に従う確率変数bを用いて、回帰パラメータβの区間推定及び検定を行うことができる。
以上より、βの区間推定及び検定を行うためには、誤差が正規分布に従っている必要がある。
しかし、誤差を知ることができないので、誤差の代わりに残差を用いる。

【上記解釈に問題ない場合】
しかし、誤差の代わりに残差を用いてよいというところがしっくりきていない状況です。
代用してよい理由についてご教示いただきたくよろしくお願いします。

■質問2
3つは異なる検定てある旨、承知いたしました。
「誤差が正規分布に従うと仮定することで、偏回帰係数が正規分布に従いt検定を行うことができる」という解釈の理由を、上記(質問1)で少し詳細に記載いたしました。
お手数おかけしますが、ご確認お願いいたします。

■質問3(追加質問)
回帰分析の「残差が正規分布に従うこと」に関して、正規性の判断は、
図からある程度正規性が見れればOKとしているのか、
もしくはQ-Qプロットなどを用いて正規性を詳しく見ていく必要があるのかなど、
一般的な見解があればご教示いただきたくよろしくお願いします。

#5

■質問1
「βの推定量bを式展開すると、y及びuの1次式で表すことができるので、bは正規分布に従う。(yは平均「α+βx」分散「σ^2」の正規分布に従う)
また確率変数bの平均は「β」となる。」

ここまで正しいと思います。

ここから先を検定に持っていこうとすると問題になるのはσが未知であるということになります。

そこでσにもデータから推定した分布をもたせた計算をするとbは正規分布の代わりに、t分布をスケールしたものに従うことになり、これをもとに検定するのが「回帰分析の係数の検定」だと言えると思います。

■質問3
これは目的によるということになると思います。現実の世界から取ってきたデータが線形回帰のモデルの前提をすべて完璧に満たすというのはなかなかないように思えますので、どこまでであれば妥協してそのモデルの説得力を認めるかの決めの問題になると思っております。

#6

こちらのスライドの6, 7ページが、この質問1の話を数式でしっかり説明していると思うので参考にご紹介させていただきます。http://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2014/dataanalysis/L3.pdf

#7

ご回答いただき、ありがとうございます。
また、補足資料を共有いただきありがとうございます。

■質問1
以下について承知いたしました。
・σが未知(誤差が未知)なので、残差を推定値として用いることで未知な項をなくす。
・残差を用いることで、確率変数bが従う分布が正規分布からt分布に代わる。
・t分布を用いて検定を行う。

誤差は未知なものなので、誤差に関わるところは、その推定値である残差を代用していくものだと理解いたしました。
(場合によっては、代用に際しては多少の留保が必要なときがあるが)

■質問3
目的によって決めの問題である旨、承知いたしました。