回数を予測するモデルの比較（ランダムフォレスト、線形回帰、ポアソン回帰、GLM - 負の二項分布）

Hideaki_Hayashi · 2019 年 9 月 17 日午前 1:12

あるイベントが起きる回数を予測するモデルを、ランダムフォレスト、線形回帰、ポアソン回帰の3つのモデルで作成して試しています。

これらのモデルの予測結果を比較するにはどのようにしたらよいでしょうか？

最終的には、予測性能が最も優れているモデルをもとに、何が回数に影響するかを分析したいと思っています。

※ ユーザー様からの質問を個別の事情は伏せた上で共有させて頂いたものです。

Hideaki_Hayashi · 2019 年 9 月 17 日午前 1:14

明快な答えを出すのは難しいご質問だと思いますが、思ったことを挙げさせていただきます。

回数が目的変数で、さらに0回といった小さい回数もあり得るデータであるときは、線形回帰はモデルの前提（残差の分布が上限、下限のない正規分布であること）が成立しないと思いますので、ここでは除外してよいと思います。
回数の予測なので、ランダムフォレスト、ポアソン回帰の他に、負の二項分布のGLMも試してみてもよいのではないかと思います。
予測の精度を比較したいということになると、テストモードを使って、テストデータでの予測が当たっているかどうかを見るとバイアスの無い比較ができてよいと思います。
予測の精度ということになると、ある意味説明性を捨てて予測に特化した柔軟なモデルになっている機械学習系のランダムフォレストが基本的に有利だと思います。ただ、最終的に見たい結果が、各変数の影響ということですので、そこに関してはポアソン回帰や、負の二項分布のGLMといった統計系のモデルの方が、P値など、より多くの情報を教えてくれます。ですので、この場合、予測精度によって採用するモデルを一つに決めてしまうのは妥当でないかもしれません。おそらくは、ランダムフォレストと負の二項分布のGLM（ポアソン回帰よりもこちらが現実的なことが多いです。）の二つの結果をもとに考察を進めるといったあたりが妥当なのではないかと思います。
よろしくお願いいたします。