不要な変数を減らした方がよりいいモデルになるのですか？

Ikuya_Murasato · 2024 年 10 月 8 日午後 3:27

モデルの汎用性を高めたいならば、ノイズになるような変数は削った方がよい場合が多いです。

ただし、モデルによっては1,000行のうち10行のみを予測するのにそのデータが役立つといった場合もあるので、できるだけ多くの予測を変数を入れた方が良い、という考え方もあります。

さらに、回帰のモデルを利用して、因果関係を明確にすることが目的であるのであれば、予測力の向上には不要な変数でも加えておくと「~が一定だったとしたら」という因果関係の話ができることがあります。

なお、因果関係を調べるときには、まずドメイン知識をもとにバックドア基準などの変数選択の基準をもとに、因果効果を見積もるのに最適な変数セットを選ぶべきという考え方もあります。