形態素解析を行うためのパッケージ、RMeCabを使いたい。
チュートリアル通りにMeCabアプリのインストール、RMeCabパッケージのインストールを行った。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
GitHub - IshidaMotohiro/RMeCab: Interface to MeCab
最初のテストである、
library(RMeCab)
RMeCab::RMeCabC("すもももももももものうち")
を動かしたところ、以下の結果が出た。
1
記号
"\x82\xb7\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82̂\xa4\x82\xbf"
困ったことに解決策がネットで探しても出てこない。エンコードがうまくいってないのか、
- MeCabを再インストールしてUTF-8とShift-JISを変更して試す
- RStusioのTools→Global options→Code→Savingでエンコードを変更し、RStudioを再起動
などしたが効果はなかった。試した環境は以下の通り。
- Windows 10
- R4.2.2
- RStudio 21.09.1
検証としてRStudioではなく、Rアプリを開いて試したところ、成功した。
> RMeCab::RMeCabC("すもももももももものうち")
1
名詞
"すもも"
2
助詞
"も"
3
名詞
"もも"
4
助詞
"も"
5
名詞
"もも"
6
助詞
"の"
7
名詞
"うち"
RStudioに問題があるらしい。そこでRstudioをアンインストールし、現時点の最新版であるRStudio 23.06.0を再インストールした。
結果、日本語を正しく認識できるようになった。解決。