カジュアルユーザーの自転車レンタル数に影響する要因に関する探索的データ分析

wasabiさんの2つ目のEDA Salonの投稿です!

コメントやフィードバックはこちらのトピックかTwitterでお願いします!

興味深く読ませていただきました。
"外れ値として扱うフラグ"がどんなことをしているのか興味があります。
よろしければ詳細を教えて頂けますでしょうか?
もしよろしければ、EDFファイルをダウンロード可能にしていただけるとうれしいです。

「いいね!」 2

ご連絡ありがとうございます!さきほど、ダウンロード可能にして再パブリッシュしました!EDFのステップが汚くて申し訳ないですが…

内容としては、if_else()で土日のレンタル数を抽出(FALSEはNA)し、その値に対してパーセンタイル(~10%=lower, 11~89% = normal, 90%~=upper, NA = other)を計算しました。イメージとしては、土日のレンタル数を「小さい値、普通の値、大きい値、それ以外」とすれば、場当たり的な対策ですが、謎のばらつきを捕捉できるかな…?と考え、この「外れ値として扱うフラグ」を作成ました!

線形回帰、解釈可能な説明変数のみ使用可能という自分でつけた縛りの中で、アイデアが手詰まりだったので、なんとか土日のレンタル数の意味不明なばらつきを捉える何かを探しており、苦し紛れのアイデアの1つでした…

「いいね!」 1

ありがとうございます!インポートして試させて頂きました。EDFがあると全体が一気に理解できていいですね!

土日のレンタルのばらつきだけが他と比べて特に大きいのは、そもそも土日のランダム性が他の曜日とくらべて大きいということなのかもしれませんね。
だとすると、すべての場合でランダム性を同じ誤差項で表現している線形回帰の前提にムリがあるということになるので、契約ユーザーとカジュアルユーザーを分けて分析したように、ここについても土日だけで分けて分析するのが妥当なのかもしれないと思えてきました。

コメントありがとうございます!

やはり土日のばらつきは他の曜日とは「別物」な感じなので、線形回帰だとムリそうなので、分けたほうが良いですよね、きっと。
誰かが土日に特化したEDAsalonをUPして、インサイトを提供してくれるのを期待して待ってます!