【MeCab】UbuntuにMeCabをインストール

Linux
この記事は約4分で読めます。

今回はUbuntuにMeCabをインストールする方法を紹介します。

記事にしようか迷ういましたが、いろいろと躓いた点があったためまとめました。

最後まで読んで、ぜひ楽しいMeCabライフを送ってください!(?)

この記事の概要

評価

項目評価
易しさ3.5
所要時間の少なさ2.0
汎用性4.5

インストールにはやや時間がかかりますが、たいていの環境には対応しています。

学べる事

  • UbuntuにMeCabを突っ込む方法
  • Neologd(すごい辞書)をインストールする方法

環境

  • Ubuntu 22.04 LTS

本編

MeCabをインストール

sudo apt install mecab libmecab-dev mecab-ipadic-utf8

MeCabとその関連パッケージをインストール。

これが完了すると、以下のようにターミナル上で品詞分解ができるようになります。

$ mecab
トランプ大統領  
トランプ        名詞,一般,*,*,*,*,トランプ,トランプ,トランプ
大統領  名詞,一般,*,*,*,*,大統領,ダイトウリョウ,ダイトーリョー
EOS

ただ、まだ上記のように固有名詞に弱いです。

Neologdのインストール

そこで、新語・固有名詞にも強いNEologdをインストールします。


git clone https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
sudo bin/install-mecab-ipadic-neologd -n

ライブラリがないと言われたらgit make curl xz-utils fileこれら中心にインストール。

途中でyes/noを聞かれたらyesを入力してください。

その後、neologdをipadicと同じ場所へ移動。

sudo mv /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd /var/lib/mecab/dic

また、MeCabの参照をneologdにするために/etc/mecabrcを編集します。

;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
; dicdir = /var/lib/mecab/dic/debian ⇐ 最初にセミコロン追加
dicdir = /var/lib/mecab/dic/mecab-ipadic-neologd ⇐ 一行追加
; userdic = /home/foo/bar/user.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n

ここでもう一度先ほどの品詞分解をしてみます。

$ mecab
トランプ大統領
トランプ大統領  名詞,固有名詞,人名,一般,*,*,ドナルド・トランプ,トランプダイトウリョウ,トランプダイトウリョー
EOS

前とは違い、しっかりと固有名詞として認識できています。

Pythonにバインディング

pip install mecab-python3
sudo cp /etc/mecabrc /usr/local/etc/

最後にPythonにバインディング&ファイルをコピーして完了です。

おわりに

今回はUbuntuにMeCabwo突っ込んで、楽しいMeCabライフを送る方法を紹介しました。

MeCabはAI用途の形態素解析などにも使われているライブラリです。

いろいろ活用してみてください!

参考にさせていただいた記事

Python3 + Mecab で形態素解析してみた - Qiita
1. はじめに今回は、Python3・Mecab を使用して、簡単な形態素解析を実行する方法をまとめます。※ ここでは Mac PCで実行しています。2. 準備形態素解析を実行するにあたって、Python3 と Mecab・辞書、mecab...

コメント

タイトルとURLをコピーしました