Exploratory コミュニティ

不均衡データを少数派のデータに合わせてアンダーサンプリングしたい

#1

データの不均衡の調整はSMOTEという手法を使っており、多数派と少数派のデータの割合はパラメーターから変更することができます。

英語にはなりますが、詳しくはこちらをご覧ください。

下記にアンダーサンプリングのみ実施する方法をご紹介します。

例えば、離職のTRUEの数が237行なので、FALSEの数も237行にアンダーサンプリングしたいとします。

ステップメニューからその他を選び、データの不均衡を調整を選択します。

image

不均衡のある列に対象の列を選びます。

データの不均衡の調整の目標とする少数派のデータの割合に50と入力します。これで、少数派と多数派の割合が50:50になります。
次に、少数派のデータの増加率の上限に0を入力します。これで、少数派のデータを増やすことはありません。

実行すると離職のTRUEとFALSEの行数は同じであることが確認できます。
また、sythesizedでTRUEがSMOTEで生成されたデータになりますが、TRUEの数が0になっているので生成しているデータはないということになります。

1 Like