等頻度で分けた際に、それぞれのグループでの行の数が同じにならない

等頻度ではそれぞれのカテゴリーに含まれる行の数が一定になるように数値の幅を決めて分けていきますが、各カテゴリーでの行の数が同じにならないことがあります。

image

例えば、年齢のような整数値の場合は一意な値の数が少なく、値の範囲(レンジ)も大きくありません。さらには、整数値の場合は小数点で切り分けたとしても意味がありません。

下記のチャートは、年齢を1歳ごとにバーとして可視化したもので、Y軸は行の数、色には年齢を割り当てて等頻度で5等分しています。

image

なぜかというと、上記のチャートで最初のカテゴリーの範囲が18 - 28.5だとしても、18から28歳がこのグループに含まれ、次のグループに29歳が含まれるため、整数値の場合は小数点での切り分けが機能しないことを表します。

image

給料のように小数点が含まれるような数値列であれば、小数点を用いて同じ行の数になるように切り分けがしやすくなります。

image

以上を踏まえて、等頻度でカテゴリーを分けたとしても行の数が一定にならない時には、整数値で値の範囲が小さいかどうかを確認してみてください。