【自然言語処理入門】日本語ストップワードの考察【品詞別】 - ミエルカAI は、自然言語処理技術を中心とした、RPA開発・サイト改善・流入改善レコメンドエンジンを開発

ストップワードの除去は自然言語処理やテキストマイニングにおける重要な作業です．
解析の精度を上げるために不要な記号や単語を等をデータセットから除去します．
ストップワードの選定にはタスクに特化した分析が必要ですが，ある程度整理されているデータがあるととても助かります．
そこで，今回は私が自然言語処理のタスクでよく行う，日本語のストップワードについてまとめました．
また単語の分布などから，品詞ごとのストップワードに対する考察も行いました．
このことからストップワードを介して自然言語処理のあまり語らることのない知識などをご共有できればと思います．
（この記事の考察部分は主に自然言語処理の初心者を対象とした入門記事です．）

1. 自然言語処理・ストップワードとは
2. 分析の対象
3. 単語の分布に対する考察
┣ 出現頻度上位300件
┗ 出現頻度と単語
4. 品詞ごとに考察
┣ 名詞
┣ 動詞
┣ 副詞
┣ 助詞
┣ 接続詞
┣ 記号
┣ 助動詞
┣ 感動詞
┣ 感動詞
┗ 連体詞
5. 便利な正規表現
┣ ひらがな
┣ カタカナ
┣ 漢字
┗ 常用漢字一覧
6. おわりに

自然言語処理・ストップワードとは

自然言語処理

小学館の『日本国語大辞典第二版』には見出し語として50万語ほど記載されているそうです．
コンピューターで言語を処理する際には，それを符号化する必要があります．
我々が普段使用する英語や日本語などの言語は自然言語と呼ばれ，それをコンピューターで処理することを自然言語処理といいます．

単語の数値化

自然言語処理では形態素解析やn-gramという手法を用いて文章を単語もしくはある単位に分割します．
その分割された単位に通し番号（インデックス）を付け単語を数値に置き換えます．
そのため，単語は「単語とインデックスの関係を記述した辞書」を介して数値化されます．
この数値を元に分析などの処理を行います．
ニューラルネットワークに単語を入れる際には単語自体をベクトル化(エンベディング:Embedding)する必要があります．
この方法にはone-hotベクトルの利用やword2vecを用いたベクトル化などがあります．

one-hotベクトル

もっとも単純な単語のベクトル化手法であります．
まず，単語の辞書の要素数分の長さを持つ0で埋め尽くされたベクトルを用意します．
次に，エンベディングするある1単語のインデックスに相当する箇所を1に置き換えます．
以上です．
例として次のような辞書があるとしましょう．

これから「美味しい」のベクトルを得ると以下のようなベクトルが得られます．

文章のベクトル化

文章を処理する際には数値化された単語から文章のベクトルを生成し，機械学習のモデルに入力し学習させます．
文章のベクトル化に用いられる方法にはBOW(Bag-of-Words)などがあります．

BOW(Bag-of-Words)

BOWとは文章などの単語の集合をベクトル化する手法です．
one-hotベクトルの時と同様に0で埋め尽くされたベクトルを用意し，集合に含まれる単語に対応する個所にのみ1を立てます．
先ほどone-hotベクトルの項で使った例をもとに，「美味しい、りんご美味しい」をBOW表現すると以下のようになります．

もっとも単純なone-hotベクトルは単語の出現頻度(TF:Term Frequency)を考慮しないため上記のようになるが，頻度を考慮して以下のようにあらわすこともあります．

[1, 0, 1, 2, 0]

また，各要素にTF-IDFという指標を用いることもあります．

問題点

このように，単語をベクトル化するわけだが，先ほども上げたように日本語の単語数は膨大であります．
これをもしそのままベクトル化して利用すると何十万次元のベクトルの演算が必要となり，メモリ不足を引き起こしたり，コンピューターの寿命が尽きるまでに計算が終わらなくなったりもします．

解決策

これらを解決するためには，用いる単語の数を削減することが不可欠であります．
情報量が少ない単語，出現頻度が少ない単語，タスクに関係が無い単語を省く必要があります．
これらの，いらない単語をまとめたものをストップワードといいます．

分析の対象

　今回は2018年5月31日時点でのwikipediaのダンプを元に分析を行います．
日本語における頻出単語はほとんど不変なため，時がたってもその影響は大きくないと思います．

単語の分布に対する考察

はじめに

　単語の出現頻度をもとに分析を行っていきます．

出現頻度上位300件

（半角スペース区切り，半角スペースは排除してあります．）

。は、の（）にでをたしがとてあるれさするいるからも・として「」いこと – ななっやれるなどためこのまでまたあっないありなるそのられ後『』へ日本というよう ( 現在ものよりだおり的中により ) 2 による第なりによって 1 これその後ず , か時なくられるだっにおいて者なかっ行わ多くしかし 3 せ他名出身それについて間当時上ば存在受け . 呼ば同なおできる目行っ内う数のみ前以下き：元化 4 等および使用でき同年主場合際一約におけるさらに一部所属人以降ら活動 5 中心作品いう知ら同じ初だけ多い時代以上生まれ発表 2010年にて見務め持つとともに大参加頃位置 2007年 2009年 2008年開始うち行うほか特に全ながら当初発売せる 2011年家かつて下卒業一つ 2006年 6 でも年 2012年形用いに対して最初 / 本考えなら以外関係一方それぞれ各同様 4月経 2013年と共に 2005年そして 3月地域必要これら及び一般用 2014年結果可能現開催事ものの利用にかけて部影響設立記録得アメリカ通りとも彼 2015年自身登場始めまたは担当変更意味たり側とき開発設置代表ほどので構成ただし二 2004年郡初めてたち部分 2016年最も放送 7 旧地最後アメリカ合衆国 10月世界研究大学 8 系大きな活躍獲得続け以前全て問題性与え 9月父含むといったほとんど 7月ところ 2017年 2003年向け持っ 2000年加え使わ型 6月に関する出場 12月目的高い名称に対する 1月万実際 5月 -1 名前様々再び 10

前半にはひらがな一文字から成る助詞が多く出てきています．
また，句読点や各種カッコなどの記号も見られます．
ところどころに，「日本」，「現在」，「第」，「同」などのwikipedia特有の表現に依存ていると考えられるものも含まれています．
このことから，ストップワードを選定する際にはもとにしたデータセット固有の表現を必要に応じて除去する必要があることがわかります．

具体的に5000単語ごとにどのような単語がランクインしているかを確かめてみます．
これにより，DeepLearningなどのvocab，BOWとしてどこまで用いるかの目安を求めます．
（半角スペース区切り，半角スペースは排除してあります．）

rank word
1 。
5000 3月18日
10000 103
15000 挙行
20000 先着
25000 文集
30000 Ben
35000 ビーイング
40000 笑わ
45000 ちご
50000 リコー
55000 印刷技術
60000 詰まる
65000 アンシュルス
70000 付き従い
75000 マラケシュ
80000 ディオニュシオス
85000 正月三が日
90000 ぴん
95000 俊之
100000 銭形平次

数字は排除して考えるべきですが複雑な排除過程を用いると再現性が低くなるため，あえてそのまま残しておきました．
25000番目までは普通の文章でもよく出てきそうな単語が並んでいます．
75000番目以降は人名や固有名詞が多くなってくるようです．
私がone-hotベクトルとしてニューラルネットワーク系のモデルで単語を学習させる際には，大体40000くらいで足切りしています．
その前に数字を省いたり，単語を原型に戻したりする処理をはさむこともあります．

出現頻度と単語

自然言語における単語の出現頻度には偏りがあります．
実際にwikipediaにおける出現頻度上位30個の単語とその出現回数，累積和，累積和の全体に対する累積比率を見てみましょう．

rank word frequency sum percent
1 。 1042175 1042175 0.602441
2 は 1040934 2083109 1.204165
3 、 1030243 3113352 1.799709
4 の 1007411 4120763 2.382054
5 （ 985441 5106204 2.951700
6 ） 969404 6075608 3.512075
7 に 931459 7007067 4.050516
8 で 890582 7897649 4.565327
9 を 844499 8742148 5.053499
10 た 837914 9580062 5.537865
11 し 789369 10369431 5.994169
12 が 782454 11151885 6.446475
13 と 779079 11930964 6.896831
14 て 775210 12706174 7.344950
15 ある 716627 13422801 7.759204
16 れ 687856 14110657 8.156828
17 さ 682101 14792758 8.551124
18 する 613570 15406328 8.905805
19 いる 611892 16018220 9.259516
20 から 597215 16615435 9.604743
21 も 564386 17179821 9.930993
22 ・ 557556 17737377 10.253295
23 として 505984 18243361 10.545785
24 「 481767 18725128 10.824276
25 」 477105 19202233 11.100072
26 い 441220 19643453 11.355124
27 こと 430190 20073643 11.603800
28 – 415687 20489330 11.844093
29 な 411968 20901298 12.082236
30 なっ 409480 21310778 12.318940

日本語において可能な単語を網羅的に含んでいるwikipediaにおいてさえ，出現頻度の高い上位22個の単語だけで全体の約10%も占めていることがわかりました．
以下に日本語wikipediaにおける単語の出現頻度のパレート図を示します．
(小さければ「ctrl」+「+」などで拡大してください．)

この図は，出現頻度上位10万語の出現回数のパレート図です．
おおよそ，100単語で20%，400単語で30%，900単語で40%，1900単語で50%，4,000単語で60%，8,600単語で70%，21,100単語で80%，77,550単語で90%を占めています．
1万単語くらいから累積頻度の伸び率が鈍化していくのでそこで切ってしまってもいいかもしれないですね．
ちなみに今回の分析に使ったwikipedia全体では，3,034,434単語(mecab-ipadic-NEologd + janomeで分割)，1,279,801文(‘\n’区切り)ありました．

品詞ごとに考察

はじめに

　品詞ごとに分析を行っていきます．品詞はjanomeやMecabなどのライブラリを使った形態素解析により求めます．今回はインストールが簡単なjanomeで行いました．単語を形態素解析器にかけると以下のような出力が得られます．
ポータルサイト名詞,固有名詞,組織,*,*,*,ポータルサイト,*,* すごい形容詞,自立,*,*,形容詞・アウオ段,基本形,すごい,スゴイ,スゴイ 1612 名詞,数,*,*,*,*,1612,*,* せいぜい副詞,助詞類接続,*,*,*,*,せいぜい,セイゼイ,セイゼイワーナー・ブラザース名詞,固有名詞,組織,*,*,*,ワーナー・ブラザース,*,*
この結果には原型，品詞，活用，読み方などが示されています．
自然言語処理では，これをもとに分析やストップワードの選定を行います．

名詞

名詞のうち，出現頻度上位300語を確認します．
（半角スペース区切り，半角スペースは排除してあります．）

こと – ため後日本 ( 現在ものおり的中 ) 2 1 これその後 , 時者多く 3 他名出身それ間当時上ば存在 . 目内数前以下元化 4 等使用同年主場合際一一部所属人以降ら活動 5 中心作品初時代以上生まれ発表 2010年務め大参加頃位置 2007年 2009年 2008年開始うちほか全当初発売 2011年家下卒業一つ 2006年 6 年 2012年形最初 / 本考え以外関係それぞれ同様 4月経 2013年 2005年 3月地域必要これら一般用 2014年結果可能現開催事利用部影響設立記録得アメリカ通りとも彼 2015年自身登場始め担当変更意味側とき開発設置代表構成二 2004年郡部分 2016年放送 7 地最後アメリカ合衆国 10月世界研究大学 8 系活躍獲得以前全て問題性 9月父 7月ところ 2017年 2003年向け 2000年型 6月出場 12月目的名称 1月 5月 -1 名前様々 10 号 8月出演別デビュー点状態発生 11月新 2002年就任時期次受賞死去 0 面式特徴 2001年その他監督日ここ多数映画終了東京由来選手理由イギリス出新た末決定三線社自分手いずれ女性計画内容戦採用チーム方以来場所例国 2月初期実施版シリーズ建設力のち最大すべてフランス人口優勝重要通常行い制作販売成功 of 1999年時点村作自ら人物以後収録期公開時間はじめ非常大会予定まま国内対応全体表記展開地区南 2年運営中国町たいメンバー番組度発見評価ドイツ子 1998年参照物翌年会北何所軍有名機教授程度歴史近く 1997年事業

　上位の方は，ほとんどの文章において自立的に用いられる語というよりは何かを補助する役割で用いられる単語が出現しているようです．wikipediaの場合には2000年代の年数が多く出現していることがわかります．数字に重きを置かないタスクにおいてはこれらの数字を0に統一するという前処理が多々見られます．これは，細かい数字の値に着目するのではなく，そこに数字が入ることのみを学習すればよいという場合に使われます．タスク依存ではありますが，このような情報の丸め込みは常套手段です．
　下位の方になると国名などのコーパスに特有な名詞がみられます．このような名詞は一般的に取り除かない方が良いです．

品詞を「名詞-一般」に絞ってみます．

もの中時者他名出身間上ば目内数元主人ら中心作品初時代生まれ務め大家下一つ年形最初本考え経地域一般用現事部得通りとも自身側郡部分地最後世界大学系性父ところ向け型目的名称名前様々別点状態新次面式特徴日映画選手理由線社自分手女性内容戦チーム場所例国初期版シリーズ力最大人口通常行い時点村作人物期大会国内地区南

すると，先ほどの単語群のうちの情報量の少なそうな単語が省けました．
これらの単語は多くの場合で分析に必要不可欠な単語です．
この結果から，「名詞」と「名詞-一般」の差分をストップワードに入れると良さそうといった工夫も見えてきますね．
ストップワードの選定などの作業は，人手ですべてを定義するのは難しいのでなんらかのヒントをもとに生成した集合を組み合わせて定義していくと楽に進みます．

動詞

動詞のうち，出現頻度上位300語を確認します．
（半角スペース区切り，半角スペースは排除してあります．）

しあるれするいるいなっれるありなるられなりられる行わせ受け呼ばできる行っできいう知ら見持つ行うせる用いたち続け与え含む持っ加え使わ異なるいくよる入っ果たし入りいっ言わ挙げ認め伴いしまう含ま続いしまっ入るみ含め受ける合わせ使っ至るよれ示す作ら迎え選ば残し出し離れ務める言う述べいわ求め残っ持ち続く示し入れ置か呼ぶ進め思わくるかけ指すしよ似終わっ始まっ結ぶ置く来得るもっ見る書か始める属する敗れ異なり見せ描い比べ有する描か起こし語っあたる生まれる用いる目指し作っ分け使う除く応じ戻っ訪れすれ収め受けて進ん向かっ果たす書い言っ始まる属し至っ持た起き行く出来る出る向かうせん結ん与える生じかかわら伴う作る変えとっ呼ん取っ置い建て限ら称し沿い残さ残る率いる優れ基づい有し続ける通っ終わり学ん達し起こっ超える失っ演じ開か過ぎしまい命じ基づく送っ続き求める記さ見える表す渡っ出さ出す知っした繰り返し考える終え進む行き流れる称さ率い変わっ異なっ目指す除いあげ思っ扱う継い視生まれる渡り進み住ん住む占め学ぶ知るいえる戻り決まっ描く沿っ過ごし許さ問わしょう伴っ開いかかる取る言える戻るしない守る代わっ立っ手がけ記し付い占める現れる言えとる基づき加わっ取りあろ呼び及ぶ移っ起こる働い違う通る聞い失わ次ぐ終わる転じ扱わ除き挙げるせよ図る当たる掲げ並ん生じる読みくれ示さ越え行なっ組ん移し乗っ亡くなっ関わっちなん死ん戦っ送ら行なわ走るきた広がっさせ接し来るかかっ接する入れる仕え関わるやっ関わら迎えるしよう戦う図っ選ん防ぐ生き取ら伝える起こりつける表し言い担っ破り通う述べる築い

　上位の単語はなにかに接尾する単語なので，これらはストップワードにしてもよいかもしれないです．それ以外の単語に関しては文字通り動作を表すものがほとんどなので情報量が多い品詞です．「呼ば」や「知ら」が頻出なのはwikipediaの特徴です．一般的な動作の分布が欲しい場合は，QAサイトやSNSやブログをクロールし分析するといいでしょう．

形容詞

形容詞のうち，出現頻度上位300語を確認します．
（半角スペース区切り，半角スペースは排除してあります．）

ないなくなかっ多い高い大きく長強い新しい近いなけれ広く高く無い少ない強くいい長いなし少なく多かっ大きいやすい良い低い古い長く高さ数多く低大き無く長さよい短い深い激しい若い小さい良く早く広い深くく無かっ強難しい厳しい低く余儀なくやすく多小さく重激しく幅広い珍しい悪いにくい美しいくらい幼い白い古早い広悪く短く狭い新しく正しい詳しくうまく赤い幅広く珍しく黒い厳しく著しくほしい弱い著し近無しこく数少ない難しく親しま薄い高かっ著高い評価欲しい少なかっ重い明るい異速やす遅く悪詳しい厚細かい軽安大きかっ長い間愛し薄くなき遅い狭く軽い強かっ等しいにくく細長い細い速い少著しい素晴らしい暗い弱く軽く浅い明るく遠重く遠い望ましい貧しい乏しい濃い細かく若速く深さ厚く青い良かっ厚いまる親しく良さ上手く美し深鋭いひろしかた早楽しん低かっふさわしい名高いいち早く面白いこい安い細く少なからず美しく若さ長き暗がたい素早く太い安く重さ淡甘いひどく悪かっ優しい若く親しいくさい若き楽しい白く悪さ貴よかっ乏しく興味深い苦しい等しくおも太く細長く速さ黄色い丸いたかし柔らかい黒く快すい赤くづらい硬い温狭ひどい重き早くもくろ根強い鋭く芳しく恐ろしい冷たい痛色濃く暗く固寒さ熱い浅く明る細難い甘濃難しかっ数多い深かっ丸く力強い楽しく相応しい柔らかくうし濃く辛い固く近かっ寒い易い臭い優しくくち良き若くして遅少な淡い幼くはやし快く暖かい硬ほし険しい難しおかしい疑わしいうき楽しま固い硬く好ましくこふん根強く好ましい面白く甘く高い位置遅かっ酷い見よこし激し長かっ怖危うく輝かしい暑い悲しい若いおかしくっぽい若き日おおいくいん小さかっ怖い小さ惜しま浅力強く楽しさ正しうまい緩いすごいきよし

　「ない」系の単語を除けばほとんどが自立語で，これもまた情報量が多い品詞です．ある事象の度合いや様相を表す単語が多いため，直感的にも大切そうだとわかります．

副詞

副詞のうち，出現頻度上位300語を確認します．
（半角スペース区切り，半角スペースは排除してあります．）

よりさらに特にかつて初めて最もほとんど万実際再び同時にほぼよくそのままどうこうそうすぐあまり相当しばしば既にわずか比較的更にまだ全くもうかなり元々ついまずやがて古くややすでに共に常に次第に引き続き少しもともと単に極めてしばらくおよそ再度次々徐々にともに少なくとも一旦ついに必ずごく別にやはりようやく突然とう必ずしもむしろもしある程度はっきり互いに長らく間もなく改めて当然まったくまもなくなぜ当ておそらく度々決して僅かもちろんたびたびとても主としてもっととりわけあくまで概ね大いにそうした順次あまりにいかなかなか中でもとくに一気にそれほどいつもずっとちょうど急遽多少突如本当におおむね直ちにもはや時にでんいったん将正しくあらかじめはじめて時にはたとえこれから未だ極依然としてきわめてあえて実に一躍しっかり遂にあくまでもまさに順に早々いろいろもっぱら充分かくゆっくり便宜上一層いかにまるで何とかおおよそ終始仮に時々いきなり遥かおもに早くからますますたまたまたった一応いわば色々別途とくいっぱい未だにピン果たしてなんとかもう一度ばん多々専らいまだ相まってなるべくかえってちょっとりんもとより二度とただちにやっとすぐさまそれなりどうしてもやむなくさほどなかでも恐らく公然予めたちまちあたかもふたたびそっくり程なく続々たいてい暫くことごとくきちんとバン直ぐ極力目の当たり絶えずすっかり総じて幸いなおも早速何らできるだけバラバラ世に概して少々どんどん一般にわざとそのままで敢えて再三今やいざとにかく真にさと依然相変わらず終生仲良く何故わざわざ且つひたすらいまだに堂々まっすぐ辛うじてどうしていよいよひいてはかろうじていつしかともかく転封おそらくは勿論然あっさりかねてからふつう惜しくも後で一味ニコニコ動画ゆめはたもしもちゃんと時としてもう少しさすがバーンまだまだ思わず異に宜遅くとも奇しくも尽くさこうつういっそうどうどう多分それだけ到底だんだんとりあえずとうとうどうし無理やりニコニコ生放送たたえしばしさながら断固細々何故かだいたいふんだんにゆったりふとどんなにそこそこ道道ことにしだいに唯きっとこうか一向に全然丁度余計現にそうだ

　見てわかるように情報量は少ない品詞です．これらの単語がなくても文章は成立するため，私はこれらをストップワードにすることが多いです．しかし，後半を見てわかるように形態素解析も完全ではないので注意が必要です．

助詞

助詞のうち，出現頻度上位100語を確認します．
（半角スペース区切り，半角スペースは排除してあります．）

はのにをてさからもとしてなやなどまでへというによりによるによってかにおいてについてのみにおけるだけにてとともにながらに対してと共にもののにかけてたりほどのでといったに関するに対するに対しんしかにとってつつに関してわなさを通じてよずつばかりにわたってにあたるねにもこそを通してかいに際してのにをもってさえにわたりすらに従ってにあたってってにわたるにあたりに従いべぜぞどけか所にしにつきねんに当たるに際しにつれてとかだりにつれをめぐっててんもんに当たってにまつわるの子にあは元を以てデぐらいにかけやらかなしもなんてに関し

　これもストップワードの代表的な例です．BERTのような構文の依存関係まで学習できるようなモデルでない限り，これもあまり役に立ちません．特にBOWのように単語の集合を分析する場合には省くことがほとんどだと思います．しかし，構文解析や照応解析ではこれが一番重要といっても過言ではないでしょう．

接続詞

接続詞のうち，出現頻度上位100語を確認します．
（半角スペース区切り，半角スペースは排除してあります．）

でがまたしかしなおおよびでもなら一方そして及びまたはただしあるいは同じく例えばかつではそこでもしくはただすなわちだがつまりもっともちなみにしかしながらそれでもところがたとえばこうして次いでないししたがって次に又はしかも但し実はじゃ尚従ってそもそもよって反面並びに否けどついで故に又それからまたがる追ってすると一方的或いはならびにゆえに即ちなおかつだからそれに即若しくはがよくどころかまずはならではまたがっそれでだってなぜならかくして因みにけれどもそれとも本当はというのもがそまたもそうしてけれどいっぽうがさ一方通行それではまたいそのうえがつところででのみいえよそれどころか一方向さてなおきないしは即戦力またがり

　これもまた，単語ベースの分析ではあまり情報量のない単語です．しかし，文と文の関係を記述する語なためタスクごとに扱いを変えるべきでしょう．
　ところで，接続詞ってこんなにあるんですね．逆接の頻度が高いのは面白い発見で，何か言えることがありそうです．この量の接続詞を使いこなせるようになれば流ちょうな文章が書けそうですね．

記号

記号のうち，出現頻度上位200語を確認します．
（半角スペース区切り，半角スペースは排除してあります．）

。、（）・「」『』：〜＝ ※ ” “ → … × ！／？ ○ ノ〈〉々，＆ ☆ ― ＋ α 〒《》 ‐ …。【】 ★ ； ’ β （- − 〔 μ 〕 ˈ ＞（）＜ ́ ―― ． ə ｍ［］ γ 〇 ■ ● ː （= ＊（株） △ ε ▲ π φ δ ‘ −1 σ Δ θ λ ◎ ω 。( Σ ─ ν ɛ ɪ （+ Ω ノルマン人 ρ □ ← ゝ。}} τ Ａ（笑） ×3 κ ɔ η ＠（～ ′ ʃ ノルマン Ἀ （. ο 「( ÷ 「～ ʊ ◆ （? （≒ （（ ζ （財） ↑ ι Γ χ محمد 〇〇。! Λ ˌ ʿ 。- Ｂ「- （－｝ Ζ ◇ بن £ ψ （( Φ ｛（’ υ ʒ Α （社）。}}}} ノリス ɾ عبد Ｔ。) ɡ əˈ ゞｔノウサギ −2 ɣ Π ɒ ↓ ʻ ︎ ｜Ｃ Ε 『’ Ｆ ξ ɑ Ｍノモス〆Ｄ（” Ζガンダム ʌ ＨＶ￥ＸＪ ɐ ʁ ɔː （有） −3 Ｅ（— ɨ （｢Ｓ ʲ ○× الله ｃｍノリッチ

　たいていのタスクではノイズとなる品詞です．情報量がないうえに，場合によっては文字化けしたりする厄介な文字が多いです．各種カッコやギリシャ文字などは，正規表現を使って文字コード上の範囲を指定し排除することが多いです．もしくは日本語や英語などの対象となる言語全体を正規表現で規定しておき，そこらかはみ出るものに関しては排除するといった工夫をするのも常套手段です．
　余談として，😄絵文字😄は情報量が非常に多い記号です😆．感情の現れだったり，それ自体が文の要約であるといった見方もできるので，ストップワード⛔に用いるかどうかはタスクごとに考える必要があるといえるでしょう🤔．

助動詞

助動詞のうち，出現頻度上位100語を確認します．
（半角スペース区切り，半角スペースは排除してあります．）

ただずだっきべきじたらであるますだろべくぬですつましらしいりたるるじょうませらしくたかっまいでしょたろでしべしじけんじょたなかましょらした者ながなのかごとく如くりしつじらしきございた事だらたかおた分やしつちつぼじただんりのたもうたじださやな如きじどうしゃじょうやくりおやせひんりぼんじょうほりなじゆうごときたなやのべからっしじちだいちた紙たくやた方りひやたた面つちやたはまじじだじどうしなのはだむた力るした値なばらしくないじどうた量たひるかたかつじょうこうた人た産

これらも情報量が少ない単語です．だいたいの単語がひらがな1文字か2文字なのでそれらを正規表現でまとめて省くこともあります．

感動詞

感動詞のうち，出現頻度上位143語を確認します．
（ノイズ，半角スペース区切り，半角スペースは排除してあります．）

あっよううおあれまほういえうえおおよしおいぎょノーあらはいうんなんとオーいやありがとうフェローおはああサヨナラうごうさよならはっうおねえそらエイおやねぇあらわまあうんどうおはようサヨナラフェええさらばふんアッおっようこそじゃあイヤうしんおおわさあさようならうごこんにちはあらかうげんうなういちなるほどげっうわうふウンどうぞおめでとううしろうしょううやむやはてうはえっおおえほらごめんうぐいいえわっただいまおやすみうだよおこんばんはおさうかおすこらごめんなさいへえようしまぁほんとあゝさぁやああかんなむあぁエッすみませんこりゃいやいや南無はじめましておーいういっ嗚呼ごめんねウイバカヤローおかえりうおんごきげんようへっおわういいう～うーなるほど! 何だどっこいうへんガーンゴメンありがとごめんわんわんはてなうおおすいませんお疲れ様へーありゃもしもし有難うおやすみなさいはぁうぇじゃーへぇヨロシクもしもしおかえりなさいキャッ

　情報量はまあまあといったところでしょうか．出現自体目ずらいしいのであえてストップワードに入れることはあまりしないです．
　これ単独で見るとうるさい文章みたいですね．チャットボットとかを作るときに意識的に入れてみるとイキイキしそうです．

連体詞

連体詞のうち，出現頻度上位100語を確認します．
（ノイズ，半角スペース区切り，半角スペースは排除してあります．）

この　その　同じ　大きな　そのため　いわゆる　どの　こうした　そんな　ある　あらゆる　何らかの　そのうち　そのほか　単なる　どんな　さらなる　ある時　そのよう　いかなる　とある　そういった　こんな　主たる　そういう　このまま　その子　ほんの　我が　わが　亡き　聖なる　こういう　どういう　あるとき　ある意味　確固たる　当の　なんらかの　あんな　かの　大いなる　大した　其の　いろんな　見知らぬ　或　さる　亡き　おかしな　如何なる　ありとあらゆる　さること　ふとした　わがまま　最たる　おなじ　まさかの　確たる　名だたる　堂々たる　ちいさな　さしたる　色んな　れっきとした　たいした　断固たる　然るべき　たっての　微々たる　輝ける　見知らぬ　ただならぬ　隠然たる　吾が　ろくな　おおきな　当の　ひょんな事　かの　在りし　たんなる　とある　ひょんな　大きな　小さな　きたる　何たる　ちっちゃな　あくる　そのまんま　かの　ほんの　厳然たる　とんだ　おおいなるおそるべきこんな冠たる由々しき

　体言（名詞・代名詞・数詞）を修飾します．これは単語によっては情報量の多いものもあるので「こそあど言葉」のみをストップワードに入れるとよいでしょう．

フィラー

フィラーのうち，出現頻度上位10語を確認します．
（ノイズ，半角スペース区切り，半角スペースは排除してあります．）

とえああのあうなんかえーあーえーっとあのー

　声の調子を整えたり，何か考えているときに間を埋めるために発する音声を単語化したものです．情報量はほぼないです．音声認識などを使用して獲得した文章や小説などには多く出てくるのでこれもまたストップワードに入れるべきでしょう．対話ボットなどにこれらを入れると人間らしくなるかもしれないですね．

UTF-8の範囲について

はじめに

　文字コードの範囲で欲しい情報を抽出したい場合に役立つ情報を書いておきます．

USキーボードにある文字(ASCII)

全体：0x0020 ( (半角スペース)) – 0x007E (~)
数字：0x0030 (0) – 0x0039 (9)
大文字：0x0041 (A) – 0x005A (Z)
小文字：0x0061 (a) – 0x007A (z)

ひらがな

0x3041 (ぁ(小さいあ)) – 0x3093 (ん)

カタカナ

0x30A1 (ァ(小さいア)) – 0x30F4 (ヴ) もしくは，0x30F3 (ン)

漢字

CJK統合漢字だと，中国，韓国などの漢字も入ってしまうようです．
日本の一般的な環境で扱うことのできる範囲だと以下のようになります．
0x4E00 (一(いち)) – 0x9FD0 (䲤)
最後の方は中国の漢字なので以下の範囲でよいかもしれないです．
0x4E00 (一(いち)) – 0x9FA0 (龠（やく：中国の笛）)

常用漢字一覧

範囲で示すのは困難なため，以下の一覧を正規表現などでマッチさせるとよいです．
なお，この一覧はwikipediaの常用漢字一覧に基づいて作成したものです．

亜哀挨愛曖悪握圧扱宛嵐安案暗以衣位囲医依委威為畏胃尉異移萎偉椅彙意違維慰遺緯域育一壱逸茨芋引印因咽姻員院淫陰飲隠韻右宇羽雨唄鬱畝浦運雲永泳英映栄営詠影鋭衛易疫益液駅悦越謁閲円延沿炎宴怨媛援園煙猿遠鉛塩演縁艶汚王凹央応往押旺欧殴桜翁奥横岡屋億憶臆虞乙俺卸音恩温穏下化火加可仮何花佳価果河苛科架夏家荷華菓貨渦過嫁暇禍靴寡歌箇稼課蚊牙瓦我画芽賀雅餓介回灰会快戒改怪拐悔海界皆械絵開階塊楷解潰壊懐諧貝外劾害崖涯街慨蓋該概骸垣柿各角拡革格核殻郭覚較隔閣確獲嚇穫学岳楽額顎掛潟括活喝渇割葛滑褐轄且株釜鎌刈干刊甘汗缶完肝官冠巻看陥乾勘患貫寒喚堪換敢棺款間閑勧寛幹感漢慣管関歓監緩憾還館環簡観韓艦鑑丸含岸岩玩眼頑顔願企伎危机気岐希忌汽奇祈季紀軌既記起飢鬼帰基寄規亀喜幾揮期棋貴棄毀旗器畿輝機騎技宜偽欺義疑儀戯擬犠議菊吉喫詰却客脚逆虐九久及弓丘旧休吸朽臼求究泣急級糾宮救球給嗅窮牛去巨居拒拠挙虚許距魚御漁凶共叫狂京享供協況峡挟狭恐恭胸脅強教郷境橋矯鏡競響驚仰暁業凝曲局極玉巾斤均近金菌勤琴筋僅禁緊錦謹襟吟銀区句苦駆具惧愚空偶遇隅串屈掘窟熊繰君訓勲薫軍郡群兄刑形系径茎係型契計恵啓掲渓経蛍敬景軽傾携継詣慶憬稽憩警鶏芸迎鯨隙劇撃激桁欠穴血決結傑潔月犬件見券肩建研県倹兼剣拳軒健険圏堅検嫌献絹遣権憲賢謙鍵繭顕験懸元幻玄言弦限原現舷減源厳己戸古呼固孤弧股虎故枯個庫湖雇誇鼓錮顧五互午呉後娯悟碁語誤護口工公勾孔功巧広甲交光向后好江考行坑孝抗攻更効幸拘肯侯厚恒洪皇紅荒郊香候校耕航貢降高康控梗黄喉慌港硬絞項溝鉱構綱酵稿興衡鋼講購乞号合拷剛傲豪克告谷刻国黒穀酷獄骨駒込頃今困昆恨根婚混痕紺魂墾懇左佐沙査砂唆差詐鎖座挫才再災妻采砕宰栽彩採済祭斎細菜最裁債催塞歳載際埼在材剤財罪崎作削昨柵索策酢搾錯咲冊札刷刹拶殺察撮擦雑皿三山参桟蚕惨産傘散算酸賛残斬暫士子支止氏仕史司四市矢旨死糸至伺志私使刺始姉枝祉肢姿思指施師恣紙脂視紫詞歯嗣試詩資飼誌雌摯賜諮示字寺次耳自似児事侍治持時滋慈辞磁餌璽鹿式識軸七叱失室疾執湿嫉漆質実芝写社車舎者射捨赦斜煮遮謝邪蛇尺借酌釈爵若弱寂手主守朱取狩首殊珠酒腫種趣寿受呪授需儒樹収囚州舟秀周宗拾秋臭修袖終羞習週就衆集愁酬醜蹴襲十汁充住柔重従渋銃獣縦叔祝宿淑粛縮塾熟出述術俊春瞬旬巡盾准殉純循順準潤遵処初所書庶暑署緒諸女如助序叙徐除小升少召匠床抄肖尚招承昇松沼昭宵将消症祥称笑唱商渉章紹訟勝掌晶焼焦硝粧詔証象傷奨照詳彰障憧衝賞償礁鐘上丈冗条状乗城浄剰常情場畳蒸縄壌嬢錠譲醸色拭食植殖飾触嘱織職辱尻心申伸臣芯身辛侵信津神唇娠振浸真針深紳進森診寝慎新審震薪親人刃仁尽迅甚陣尋腎須図水吹垂炊帥粋衰推酔遂睡穂随髄枢崇数据杉裾寸瀬是井世正生成西声制姓征性青斉政星牲省凄逝清盛婿晴勢聖誠精製誓静請整醒税夕斥石赤昔析席脊隻惜戚責跡積績籍切折拙窃接設雪摂節説舌絶千川仙占先宣専泉浅洗染扇栓旋船戦煎羨腺詮践箋銭潜線遷選薦繊鮮全前善然禅漸膳繕狙阻祖租素措粗組疎訴塑遡礎双壮早争走奏相荘草送倉捜挿桑巣掃曹曽爽窓創喪痩葬装僧想層総遭槽踪操燥霜騒藻造像増憎蔵贈臓即束足促則息捉速側測俗族属賊続卒率存村孫尊損遜他多汰打妥唾堕惰駄太対体耐待怠胎退帯泰堆袋逮替貸隊滞態戴大代台第題滝宅択沢卓拓託濯諾濁但達脱奪棚誰丹旦担単炭胆探淡短嘆端綻誕鍛団男段断弾暖談壇地池知値恥致遅痴稚置緻竹畜逐蓄築秩窒茶着嫡中仲虫沖宙忠抽注昼柱衷酎鋳駐著貯丁弔庁兆町長挑帳張彫眺釣頂鳥朝貼超腸跳徴嘲潮澄調聴懲直勅捗沈珍朕陳賃鎮追椎墜通痛塚漬坪爪鶴低呈廷弟定底抵邸亭貞帝訂庭逓停偵堤提程艇締諦泥的笛摘滴適敵溺迭哲鉄徹撤天典店点展添転塡田伝殿電斗吐妬徒途都渡塗賭土奴努度怒刀冬灯当投豆東到逃倒凍唐島桃討透党悼盗陶塔搭棟湯痘登答等筒統稲踏糖頭謄藤闘騰同洞胴動堂童道働銅導瞳峠匿特得督徳篤毒独読栃凸突届屯豚頓貪鈍曇丼那奈内梨謎鍋南軟難二尼弐匂肉虹日入乳尿任妊忍認寧熱年念捻粘燃悩納能脳農濃把波派破覇馬婆罵拝杯背肺俳配排敗廃輩売倍梅培陪媒買賠白伯拍泊迫剝舶博薄麦漠縛爆箱箸畑肌八鉢発髪伐抜罰閥反半氾犯帆汎伴判坂阪板版班畔般販斑飯搬煩頒範繁藩晩番蛮盤比皮妃否批彼披肥非卑飛疲秘被悲扉費碑罷避尾眉美備微鼻膝肘匹必泌筆姫百氷表俵票評漂標苗秒病描猫品浜貧賓頻敏瓶不夫父付布扶府怖阜附訃負赴浮婦符富普腐敷膚賦譜侮武部舞封風伏服副幅復福腹複覆払沸仏物粉紛雰噴墳憤奮分文聞丙平兵併並柄陛閉塀幣弊蔽餅米壁璧癖別蔑片辺返変偏遍編弁便勉歩保哺捕補舗母募墓慕暮簿方包芳邦奉宝抱放法泡胞俸倣峰砲崩訪報蜂豊飽褒縫亡乏忙坊妨忘防房肪某冒剖紡望傍帽棒貿貌暴膨謀頰北木朴牧睦僕墨撲没勃堀本奔翻凡盆麻摩磨魔毎妹枚昧埋幕膜枕又末抹万満慢漫未味魅岬密蜜脈妙民眠矛務無夢霧娘名命明迷冥盟銘鳴滅免面綿麺茂模毛妄盲耗猛網目黙門紋問冶夜野弥厄役約訳薬躍闇由油喩愉諭輸癒唯友有勇幽悠郵湧猶裕遊雄誘憂融優与予余誉預幼用羊妖洋要容庸揚揺葉陽溶腰様瘍踊窯養擁謡曜抑沃浴欲翌翼拉裸羅来雷頼絡落酪辣乱卵覧濫藍欄吏利里理痢裏履璃離陸立律慄略柳流留竜粒隆硫侶旅虜慮了両良料涼猟陵量僚領寮療瞭糧力緑林厘倫輪隣臨瑠涙累塁類令礼冷励戻例鈴零霊隷齢麗暦歴列劣烈裂恋連廉練錬呂炉賂路露老労弄郎朗浪廊楼漏籠六録麓論和話賄脇惑枠湾腕

便利な正規表現

はじめに

　文字コードの範囲でストップワードを指定したりするときに正規表現は強い味方になります．今回は私が良く用いる正規表現をまとめておきます．

日本語に出てくる文字の正規表現

数字，ローマ字，ひらがな，カタカナ，漢字を組み合わせたものです．
自然言語処理系の人の多くはpythonで使うと思うのでpythonのコードで書いておきます．
pythonがわからない方はpatternの右辺のrの隣のダブルクォーテーションの中身を使ってください．

pattern = r"[0-9A-Za-zぁ-んァ-ヴ一-龠]"
if re.match(pattern, text):
    print(text)

pattern = r"[0-9A-Za-zぁ-んァ-ヴ一-龠]"

if re.match(pattern, text):

print(text)

日本語に出てくる記号の正規表現

よく出てくる記号についてまとめたものです．
必要に応じて上の正規表現と組み合わせて使います．

pattern = r"[\!-&%\(\)\.\,/=\-，．。、\ ￥’”→↓←↑…「」（）ー\ ～『 \・～『』・；：※々ゞヶヵ％]"
if re.match(pattern, text):
    print(text)

pattern = r"[\!-&%\.\,/=\-，．。、\ ￥’”→↓←↑…「」（）ー\ ～『 \・～『』・；：※々ゞヶヵ％]"

if re.match(pattern, text):

print(text)

ひらがな1文字と2文字を省く

ひらがな1文字や2文字の単語もどきは形態素解析器の不具合で出てくるものが多いです．
必要なものはホワイトリスト的なものを作って保護しつつ以下のように省きます．
janomeで省くことが多かったのでサンプルはその文脈にしておきます．
よくやりがちなミスですが，文頭を表す^を入れ忘れるとひらがな1文字か2文字含むもの全体を取ってきてしまうので注意が必要です．

if re.search(r'^[あ-ん]{1,2}$', token.surface):
    # 処理
    pass

if re.search(r'^[あ-ん]{1,2}$', token.surface):

# 処理

pass

おわりに

今回はストップワードについてまとめてみました．
ここに書いたものなどを組み合わせて，自分が解きたいタスクに特化したストップワードを選定することがシステムの精度の向上につながるでしょう．
また，「名詞，動詞，形容詞のような自立語であるか」や「助詞の前の名詞節」のようなルールと組み合わせるとより強力な前処理が可能になります．
コーパス全体の分析をしてみることも精度の高いストップワードの選定や足切り基準の設定に貢献すると思います．
色々と試してうまくいくまで頑張ってみるとそのうちに感が付いてくると思います．

目次

自然言語処理・ストップワードとは

自然言語処理

単語の数値化

one-hotベクトル

文章のベクトル化

BOW(Bag-of-Words)

問題点

解決策

分析の対象

単語の分布に対する考察

はじめに

出現頻度 上位300件

出現頻度と単語

品詞ごとに考察

はじめに

名詞

動詞

形容詞

副詞

助詞

接続詞

記号

助動詞

感動詞

連体詞

フィラー

UTF-8の範囲について

はじめに

USキーボードにある文字(ASCII)

ひらがな

カタカナ

漢字

常用漢字一覧

便利な正規表現

はじめに

日本語に出てくる文字の正規表現

日本語に出てくる記号の正規表現

ひらがな1文字と2文字を省く

おわりに

関連記事はこちら

出現頻度上位300件