Exploratory コミュニティ

ロジスティック回帰にて変数重要度が高いのに係数の値が小さいのはなぜですか?

#1

質問

Airbnbのデータにて、スーパーホストを目的変数としたロジスティック回帰を実行したとします。

変数重要度では、レビュー評価の平均値の方が重要度が高いと出ていますが、

image

係数では、ホストの返信率の方が高いのはなぜでしょうか?

image

回答

ホスト返信率とレビュー評価はどちらも割合のデータですが、
ホスト返信率は0~1の値を取り、1の場合は100%
レビュー評価の場合は0~100の値を取り、100の場合に100%になります。

image

係数はそれぞれの変数で1ポイント上がった時の傾き(変数の指標)になります。
そのため、それぞれの列で1単位といった時にホスト返信率は1ポイントの上昇は100%に、レビュー評価の方1ポイントの上昇は1%になり、その上での傾きが係数タブで表示されています。

そのため、係数を見る際には単位が何なのかを確認する必要があります。

割合のデータの場合は、1~100とパーセント表記にすることで、係数の1ポイントの上昇を1%にすることができるので理解しやすくなります。

例えば、ホストの返信率に100をかけて、パーセント表記にしたとします。

image

そのデータでロジスティック回帰を実行することで、1ポイント(1%)上昇した際の、傾き(この場合はオッズ比)を確認することができます。

image

変数重要度の方は変数の単位は関係ないので、どの変数が目的変数にもっとも関係しているかを見たい時には変数重要度を見ることになります。