用語集作成に活用!形態素解析とは?
投稿日:2025年10月29日
カテゴリー:豆知識
投稿者:
Ar

「形態素解析」という言葉をご存じでしょうか?
「形態素」という言葉が言語学の専門用語なので聞き慣れない方も多いかもしれません。しかし、Googleなどの検索エンジン、チャットボット、SNS分析、生成AIなど私たちの生活のあらゆる場面で活用されている技術です。今回は「形態素解析」とその技術の活用について詳しく説明していきます。
形態素解析とは?
形態素とは、言語学の分野で「それ以上分解できない意味のある単位」を指します。具体的に簡単な例文を形態素に分けてみましょう。
例文)私は東京に行きました。
この例文を形態素に分けると以下のようになります。
私 / は / 東京 / に / 行き / まし / た / 。
このように文章を形態素に分割した上で、それぞれの品詞や意味を解析する処理を形態素解析と言います。上記の例文を形態素解析すると以下のようになります。
私 :名詞
は :助詞
東京:名詞
に :助詞
行き:動詞
まし:助動詞
た :助動詞
。 :記号
この形態素解析は、日本語においては非常に重要な技術です。なぜなら日本語は英語とは異なり、単語の境界が空白で区切られていないからです。英単語は空白によって明確に「単語」の区別がつきますが、日本語の場合はそうもいきません。その点で、日本語は非常に難しい言語であると言えます。そのことを以下の例文で考えてみます。
例文)すももももももものうち
日本語に不慣れな場合一目で理解することが難しい文を例文にしました。この例文を形態素に分けると以下のようになります。
すもも:名詞
も :助詞
もも :名詞
も :助詞
もも :名詞
の :助詞
うち :名詞
このように形態素に分けると、意味が明確になり、正しい日本語の理解が進むようになります。
このことが「AIなどのコンピュータに日本語を理解してもらう」というプロセスでも必要になってきます。私たちが入力した日本語のテキストを、そのままAIに正しく理解してもらうことは不可能です。AIが言語を理解するためには、「どの部分が名詞なのか」「動詞はどこで終わるのか」といった文法的情報を抽出した「構造化」が必要です。形態素解析は「構造化」の入口で必要な技術です。形態素解析を通して初めて、AIが理解できる言語として日本語を処理できるようになるのです。
冒頭で、「形態素解析が私たちの生活のあらゆる場面で活用されている技術」と書きました。Googleなどの検索エンジン、チャットボット、SNS分析、生成AIなどにこの形態素解析の技術が使われています。
特にSNS分析では、単純に形態素に分けることからさらに「うれしい」「楽しい」「つまらない」といった感情語を抽出することで、ポジティブ/ネガティブ分析も行っています。企業はこれらを使って消費者の意見分析やブランドイメージなどの調査を行っています。
用語集への活用
ここまで簡単な例を通して、形態素解析について説明してきました。
本コラムはマニュアルに関する内容を掲載しているので、次は、マニュアル制作に必須と言っても過言ではない用語集の作成に形態素解析を活用する方法について紹介していきます。
用語集を作成する上で大切なことは「用語の選定」です。使用頻度の低い用語を用語集に登録するのは避けたいところです。そこで形態素解析の出番です。マニュアルのテキストを形態素解析し、用語の出現回数を調査することで、使用頻度の高さを知ることができます。
具体的な作業について説明していきます。著作権の都合上、実際のマニュアルを使用することはできないので、ここでは著作権の切れた文学作品を「青空文庫」からダウンロードし、そのテキストを形態素解析していきます。
最初に取り上げる作品は中島敦の「山月記」です。
形態素解析のツールには、簡単に使用できる「Mecab」を使用しました。
手順は以下の通りです。
- 「山月記」を「Mecab」を使用して形態素解析
- 形態素解析の結果をExcelに抽出
- 名詞に絞り込んで出現回数をカウント
結果は以下の通りになりました。上位10位までを見てみましょう。
1位 己………46回
2位 中………29回
3位 こと……26回
4位 声………25回
5位 自分……24回
6位 李徴……21回
7位 今………20回
8位 虎………18回
8位 袁傪……18回
8位 人間……18回
特徴的な用語は主人公(李徴)とその友人(袁傪)の名前や「虎」という単語くらいでしょうか。本作の重要なキーワードである「臆病な自尊心」や「尊大な羞恥心」といった用語は、それぞれ「3回」しか使われていませんでした。
今回は約6,000字という短編で形態素解析を行ったので、用語ごとの出現回数の差が出にくかったということもあると思います。
次は長編で形態素解析を行いたいと思います。
長編小説として取り上げるのは夏目漱石の「こころ」です。本作は16万文字を超えるので、短編よりも出現回数の差が大きく出るのではないかと思います。
結果は以下の通りになりました。今回もトップ10のみ見てみましょう。
1位 私………2,695回
2位 先生…… 597回
3位 事……… 575回
4位 よう…… 503回
5位 それ…… 411回
5位 K……… 411回
7位 もの…… 392回
8位 人……… 388回
8位 奥さん… 388回
10位 時……… 376回
「山月記」と同じく、上位の特徴的な用語は「私」や「先生」、「K」、「奥さん」といった登場人物になりました。有名な「精神的に向上心がないものは馬鹿だ」で使われている用語の出現回数は以下の通りです。
精神………13回(398位)
的…………55回(110位)
向上心…… 4回(978位)
もの………392回(8位)
馬鹿………14回(374位)
※「ない」は用法が複数あるので、今回のカウントからは除外しています
「精神的に向上心がないものは馬鹿だ」というセリフ自体が、作中では4回しか出てきていません。読者の印象に残る用語は出現回数では決まらないという文学作品の特徴が表れているように思います。
ここまで文学作品について形態素解析による用語の出現回数を調べてみましたが、特徴的な用語が上位に来るというような結果は出ませんでした。ただこれは文学作品の特徴ではないかと思います。この場で公開することはできませんが、いくつかのマニュアルで同じことを行うと、特徴的な用語が上位に来る結果が出てくることが多くありました。重要なことほど、繰り返し説明する傾向があるマニュアルでは、出現回数がその用語の重要度と結びつく可能性が高いのではないかと思います。
一方で、問題もあります。1つの名詞に見える用語でも、いくつかの形態素に分割されてしまうことがあります。例えば「取扱説明書」は「取扱」「説明」「書」の3つの形態素に分割されるので、解析の結果については精査が必要です。
最後に
今回は形態素解析について紹介いたしました。合わせて、形態素解析という技術がマニュアル制作の場面でも活用できる例についても紹介いたしました。
用語集作成時の用語の選定では主観の入る余地があるので、客観的な数値に基づいて選定することができる価値は小さくないと思います。
詳しい手順は紹介できませんでしたが、「Mecab」は気軽に形態素解析ができるツールです。実際に使用することで、AIがどのように日本語を理解しているのかを垣間見ることができました。形態素解析を活用できる方法については、これからも考えていきたいと思います。


