Exploratory コミュニティ

アナリティクスの線形回帰の検定について

#1

アナリティクスの線形回帰の検定について、ご教示いただきたくよろしくお願いします。

単回帰/重回帰分析ともに、予測変数が量的変数(数値変数)か質的変数(カテゴリー変数)で同じt検定ではあるものの、検定手法が異なるという認識はあっていますでしょうか。

異なると考えている理由として、それぞれの検定は以下のように認識しているからです。
■量的変数の係数の検定
帰無仮説を「偏回帰係数=0」として検定を行っている。
■質的変数の係数の検定
質的変数の1つの項目をベースレベルと設定し、帰無仮説を「ベースレベルの項目の平均ともう一つの項目の平均の差=0」として検定を行っている。

量的変数に関しては、偏回帰係数の検定なので、スチューデントの検定やウェルチの検定とは別物と考えていますが、
質的変数に関しては、ベースレベルの項目ともう一つの項目の平均に差があるのかないのかを検定しているので、単回帰でも重回帰でもスチューデントの検定やウェルチの検定※などを行っていると理解しています。

※質的変数のベースレベルの項目ともう一つの項目に正規性がない場合は、ノンパラメトリック検定(ウィルコクソンの順位和検定等)を用いる認識です。

#2

これは、量的変数でも、カテゴリー変数でもt検定の種類としては同じ、「回帰係数の検定」が使われています。

線形回帰では、カテゴリー変数は、前処理として、ダミー変数と呼ばれる値0または1を取る変数に分解されます。

そのため、ダミー変数を、0または1という値を取る量的変数であるとみなせば、変数の値が変化したときの目的変数の変化の傾きという捉え方で、ダミー変数の係数も、通常の量的変数の係数も同様に扱うことができます。

カテゴリー変数のときの検定の帰無仮説は、ダミー変数を数値の変数とみなしたときの偏回帰係数が0であること、ということになります。

参考:Wikipediaの「t検定」の記事の「種類」の章:https://ja.wikipedia.org/wiki/T検定#種類

#3

ご回答ありがとうございます。

カテゴリー変数は前処理でダミー変数に分解することで量的変数に変換し、量的変数と同様の検定が行われることを理解することができました。