データの不均衡の調整はSMOTEという手法を使っており、多数派と少数派のデータの割合はパラメーターから変更することができます。
英語にはなりますが、詳しくはこちらをご覧ください。
下記にアンダーサンプリングのみ実施する方法をご紹介します。
例えば、離職のTRUEの数が237行なので、FALSEの数も237行にアンダーサンプリングしたいとします。
ステップメニューからその他を選び、データの不均衡を調整を選択します。
不均衡のある列に対象の列を選びます。
データの不均衡の調整の目標とする少数派のデータの割合に50と入力します。これで、少数派と多数派の割合が50:50になります。
次に、少数派のデータの増加率の上限に0を入力します。これで、少数派のデータを増やすことはありません。
実行すると離職のTRUEとFALSEの行数は同じであることが確認できます。
また、sythesizedでTRUEがSMOTEで生成されたデータになりますが、TRUEの数が0になっているので生成しているデータはないということになります。