例えば、企業の従業員データがあります。
このデータには離職しているかどうかをTRUEかFALSEで表す “Attrition” という列があり、離職に対してどの変数が影響を及ぼしているのか見たいため決定木を使用するとします。
※決定木の詳しい使い方を見たい方は、こちらのオンラインセミナーのビデオをご覧ください。
使用しているスライド資料はこちらにあります。
決定木の目的変数に “Attrition” を入れて実行をしてみると、下記のように正しく結果が出力されていない場合があります。
サマリビューに戻り、目的変数に入れていた “Attrition” のデータを見てみると、離職している人のデータの数が少ないために正しく決定木のモデルが作られていないようです。
このように、データの数が少ないためアナリティクスを実行しても思った結果が得られない場合は、「データの不均衡を解消」することで解決できることがあります。
アナリティクスのプロパティをクリックします。
「データの不均衡を解消する」がデフォルトではNoになっているんですが、「Yes」に変更して適用ボタンを押します。
AttritionがTRUEのデータが少なくても、データの不均衡を解消することで決定木の結果が出力されるようになりました。