Windowsの環境で、Twitter等のデータをRMeCabを使用して分析する際に、生成されるTokenの数が少ない場合があります。
その場合、 WindowsでUTF-8を利用可能にする の手順に従って、WindowsおよびExploratoryでUTF-8を利用可能にし、文字コードの変換がいらない下記のmecab_tokenizeで試してください。
mecab_tokenize <- function(tbl, text_col, .drop=TRUE){
loadNamespace("RMeCab")
loadNamespace("tidyr")
text_cname <- as.character(substitute(text_col))
text <- tbl[[text_cname]]
tokenize <- function(text){
tokens <- unlist(RMeCab::RMeCabC(text))
data.frame(.token = tokens, .pos = names(tokens))
}
if(.drop){
tbl[[text_cname]] <- lapply(text, tokenize)
token_col <- text_cname
} else {
tbl$.token <- lapply(text, tokenize)
token_col <- ".token"
}
tidyr::unnest(tbl, token_col)
}
参考: