決定木などの予測モデルを使って新しいデータに対して予測をした際に、予測ラベルに欠損値が出てしまう

決定木などを使ってカテゴリー列の値を予測するモデルを作っていたとします。

image

そのモデルを使って新しいデータに対して予測をした際に、予測ラベルに欠損値が出てしまうことがあります。

image

主な原因としては、以下の2つが考えられます。

  1. 予測モデルの作成時には予測変数側に無かったカテゴリー値が予測対象の新しいデータ側で存在している。
  2. 予測対象の新しいデータ側で予測変数に使われていた列で欠損値がある。

予測モデルの作成時には予測変数側に無かったカテゴリー値が予測対象の新しいデータ側で存在しているといったケースに該当する場合は、今後もモデルで予測をする際に、そのカテゴリーが含まれる可能性がある時には、モデル側にもそのカテゴリの値があるように組み込んでいただくと良いかもしれません。

「いいね!」 1