Exploratory コミュニティ

欠損値を近傍法で埋めたい

#1

ランダムフォレストを実行しようと思っていますが、その前に欠損値を近傍法で埋めたいと思っております。
Exploratoryを用いて、欠損値を埋める方法はどのようにすれば良いのでしょうか?
XLSTATでは、処理の時点で欠損値を近傍法により埋めて処理をしてくれる機能がありました。
別の処理でも別のデータを処理するため、Exploratory上で欠損データの補正を行う方法を教えていただきたいです。
ちなみにデータは投稿論文として扱うため、平均値や前後の値で埋める方法は避けたいと思っています。

1 Like
#2

ランダムフォレストを実行する前に欠損値を近傍法で埋めたいということであれば、
knn()でモデルを学習させて、欠損値のデータを使って予測するでも問題ないとおもいますが、
simputationというパッケージをインストールいただき、そのパッケージの関数impute_knn()で欠損値補完をしてしまうのが便利かと思います。詳細は下記のドキュメントを参照ください。

下記サンプルです。

①欠損値のデータ
48

②カスタムスクリプトを記述します
kNNのモデル式はデータと分析内容に応じて変更してください。

simputation::impute_knn(
    formula = Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width + Species, 
    k = 5)

③欠損値が補完
07

こんな感じでいかがでしょうか。

2 Likes