K-meansの各クラスターのサイズ(行の数)を等しくしたい

Takato_Shiroto · 2020 年 7 月 17 日午前 12:21

例えば、60行のデータがあった時に、k-meansを実行するとそれぞれのクラスターのサイズはCluster1: 30, Cluster2: 20, Cluster3: 10のようにサイズが等しくなりません。

しかし、K-meansで各クラスターのサイズを等しくしたいのですが、何か方法はありますでしょうか？

Hideaki_Hayashi · 2020 年 7 月 17 日午前 12:49

ExploratoryのUIや、R標準のkmeans関数ではこれはサポートされていませんが、コードを書くのであればやりかたはあります。

この方法の詳細についてはこちらのリンクをご覧ください。

あとは、必ずしもうまくいくとは限りませんが、私達がコーディングなしで試した一つの簡易的な方法として、各変数を順位に変換して分布をあえて一様にしてしまってからK-meansをかけるというものがあります。こちらで各クラスターのサイズがほぼ同様になる場合もあります。