WindowsでRMeCabを利用した際に、生成されるtokenの数が少ない場合の対応法

Hide_Kojima · 2022 年 11 月 11 日午後 6:07

Windowsの環境で、Twitter等のデータをRMeCabを使用して分析する際に、生成されるTokenの数が少ない場合があります。

その場合、 WindowsでUTF-8を利用可能にするの手順に従って、WindowsおよびExploratoryでUTF-8を利用可能にし、文字コードの変換がいらない下記のmecab_tokenizeで試してください。

mecab_tokenize <- function(tbl, text_col, .drop=TRUE){
 loadNamespace("RMeCab")
 loadNamespace("tidyr")
 text_cname <- as.character(substitute(text_col))
 text <- tbl[[text_cname]]
 tokenize <- function(text){
   tokens <- unlist(RMeCab::RMeCabC(text))
   data.frame(.token = tokens, .pos = names(tokens))
 }
 if(.drop){
   tbl[[text_cname]] <- lapply(text, tokenize)
   token_col <- text_cname
 } else {
   tbl$.token <- lapply(text, tokenize)
   token_col <- ".token"
 }
 tidyr::unnest(tbl, token_col)
}

参考：