WindowsとMacで予測モデルの変数重要度の結果が異なるのはなぜか?

変数重要度はそれぞれの予測変数を順番に抜いた形でモデルを何回も作り、その時ごとにどれだけモデルの予測精度が下がるかを元にそれぞれの変数の重要度を出しています。

そのさいに、正確には予測変数を抜くのではなく、値を「シャッフル(トランプのシャッフルのような意味)」することであたかもその予測変数がないかのようにします。

この時と、さらに予測変数を「抜く」順番を決める際に、値や列名に日本語が入っていると、WindowsとMacでは文字コードが違うために、モデルに渡されるデータが若干異なってきます。

するとこのせいで、作られたモデルが若干異なってくるため予測精度の方も若干異なってきます。(これは、特に変数重要度の計算のための話です。)

これが原因で変数重要度の順番、値が若干異なることがあります。