今回はUbuntuにMeCabをインストールする方法を紹介します。
記事にしようか迷ういましたが、いろいろと躓いた点があったためまとめました。
最後まで読んで、ぜひ楽しいMeCabライフを送ってください!(?)
この記事の概要
評価
項目 | 評価 |
---|---|
易しさ | |
所要時間の少なさ | |
汎用性 |
インストールにはやや時間がかかりますが、たいていの環境には対応しています。
学べる事
- UbuntuにMeCabを突っ込む方法
- Neologd(すごい辞書)をインストールする方法
環境
- Ubuntu 22.04 LTS
本編
MeCabをインストール
sudo apt install mecab libmecab-dev mecab-ipadic-utf8
MeCabとその関連パッケージをインストール。
これが完了すると、以下のようにターミナル上で品詞分解ができるようになります。
$ mecab
トランプ大統領
トランプ 名詞,一般,*,*,*,*,トランプ,トランプ,トランプ
大統領 名詞,一般,*,*,*,*,大統領,ダイトウリョウ,ダイトーリョー
EOS
ただ、まだ上記のように固有名詞に弱いです。
Neologdのインストール
そこで、新語・固有名詞にも強いNEologdをインストールします。
git clone https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
sudo bin/install-mecab-ipadic-neologd -n
ライブラリがないと言われたらgit make curl xz-utils file
これら中心にインストール。
途中でyes/no
を聞かれたらyes
を入力してください。
その後、neologdをipadicと同じ場所へ移動。
sudo mv /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd /var/lib/mecab/dic
また、MeCabの参照をneologdにするために/etc/mecabrc
を編集します。
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
; dicdir = /var/lib/mecab/dic/debian ⇐ 最初にセミコロン追加
dicdir = /var/lib/mecab/dic/mecab-ipadic-neologd ⇐ 一行追加
; userdic = /home/foo/bar/user.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n
ここでもう一度先ほどの品詞分解をしてみます。
$ mecab
トランプ大統領
トランプ大統領 名詞,固有名詞,人名,一般,*,*,ドナルド・トランプ,トランプダイトウリョウ,トランプダイトウリョー
EOS
前とは違い、しっかりと固有名詞として認識できています。
Pythonにバインディング
pip install mecab-python3
sudo cp /etc/mecabrc /usr/local/etc/
最後にPythonにバインディング&ファイルをコピーして完了です。
おわりに
今回はUbuntuにMeCabwo突っ込んで、楽しいMeCabライフを送る方法を紹介しました。
MeCabはAI用途の形態素解析などにも使われているライブラリです。
いろいろ活用してみてください!
参考にさせていただいた記事
Python3 + Mecab で形態素解析してみた - Qiita
1. はじめに今回は、Python3・Mecab を使用して、簡単な形態素解析を実行する方法をまとめます。※ ここでは Mac PCで実行しています。2. 準備形態素解析を実行するにあたって、Python3 と Mecab・辞書、mecab...
コメント