Hazy Ideas

日々の勉強の気づきを書き出しています

【R備忘録】形態素解析RMeCabがRStudio上で日本語認識してくれない

形態素解析を行うためのパッケージ、RMeCabを使いたい。

チュートリアル通りにMeCabアプリのインストール、RMeCabパッケージのインストールを行った。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

GitHub - IshidaMotohiro/RMeCab: Interface to MeCab

 

最初のテストである、

library(RMeCab)
RMeCab::RMeCabC("すもももももももものうち")

を動かしたところ、以下の結果が出た。

1
記号 
"\x82\xb7\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82̂\xa4\x82\xbf" 

 

困ったことに解決策がネットで探しても出てこない。エンコードがうまくいってないのか、

  • MeCabを再インストールしてUTF-8とShift-JISを変更して試す
  • RStusioのTools→Global options→Code→Savingでエンコードを変更し、RStudioを再起動

などしたが効果はなかった。試した環境は以下の通り。

  • Windows 10
  • R4.2.2
  • RStudio 21.09.1

 

検証としてRStudioではなく、Rアプリを開いて試したところ、成功した。

> RMeCab::RMeCabC("すもももももももものうち")
1
    名詞 
"すもも" 

2
助詞 
"も" 

3
  名詞 
"もも" 

4
助詞 
"も" 

5
  名詞 
"もも" 

6
助詞 
"の" 

7
  名詞 
"うち" 

 

RStudioに問題があるらしい。そこでRstudioをアンインストールし、現時点の最新版であるRStudio 23.06.0を再インストールした。

結果、日本語を正しく認識できるようになった。解決。