表記ゆれを素早くみつけたい

Tanabe_Sho · 2019 年 10 月 16 日午前 8:42

一つの列の中に複数の文字列がある場合に、
その中で一意の文字列が、表記ゆれで異なる文字列に認識される場合、
どのように加工すればいいでしょうか

ＷＥＢで調べると、文字列のLevenshtein距離が使えそうでした。
⇒二つの異なる文字列で文字の挿入・置換・削除を何回行うと同一になるかを計算する。

これを全ての文字列の組み合わせで実行して、”距離が小さい”イコール”表記ゆれの可能性が高い”と
判断できるかなと思います。

exploratoryで、こういった文字加工はできますか

Kan_Nishida · 2019 年 10 月 17 日午後 7:48

カスタムのRの関数を書けばできると思います。

実はこの問題を解決するための機能を途中まで作っていたのですが、他の作業に優先順位が移ってしまい止まっています。近いリリースでサポートしたいと思っています！

Tanabe_Sho · 2019 年 10 月 23 日午後 3:23

ありがとうございます。今回のEDAsalonで表記ゆれというものに注意することがわかってよかったです。
今のところは、ピボットテーブルで集計して、行の数が極端に少ない行データが疑わしいと思って、データ加工してみます。
（例、United States（正）で集計で100あるのに、United Statesss（誤）で集計したほうは１しかないとか）