ランダムフォレストでテストモードを使った時に使用される行の数が少なくなってしまう

例えば、1000行あるデータでランダムフォレストのモデルを作成したとします。

11

プロパティからテストモードをTRUEにして、テストデータに対しての予測モデルの精度を確認します。

42

すると、行の数がトレーニングデータで536行、テストデータで229行と合計で765行となっていることがわかります。1000行あったデータですが、モデルに使用されている行数が少なくなっています。

10

行数が減ってしまう理由としては、予測変数に使用されている列に欠損値がある場合は、欠損値がある行を取り除かれてモデルが作成されるからです。

03

今回の例では、対象の列に欠損値の数が235行あったため、1000行 - 235行をした765行がランダムフォレストのテストモードのモデルに使用されていました。