ストップワードの除去は自然言語処理やテキストマイニングにおける重要な作業です.
解析の精度を上げるために不要な記号や単語を等をデータセットから除去します.
ストップワードの選定にはタスクに特化した分析が必要ですが,ある程度整理されているデータがあるととても助かります.
そこで,今回は私が自然言語処理のタスクでよく行う,日本語のストップワードについてまとめました.
また単語の分布などから,品詞ごとのストップワードに対する考察も行いました.
このことからストップワードを介して自然言語処理のあまり語らることのない知識などをご共有できればと思います.
(この記事の考察部分は主に自然言語処理の初心者を対象とした入門記事です.)
【技術解説】確率的潜在意味解析(PLSA)のアルゴリズムと応用
今回は潜在意味解析(Latent Semantic Analysis: LSA)を確率的に発展させたトピックモデルの確率的潜在意味解析(PLSA)について解説します.
このモデルを使うと潜在的な意味をトピックとして抽出でき,そのトピック内で単語と文書が出現する確率がわかります.主に既存のデータの分析に用いられています.
【技術解説】潜在意味解析(LSA) ~特異値分解(SVD)から文書検索まで~
今回は潜在意味解析(Latent Semantic Analysis: LSA)と特異値分解(Singular Value Decomposition: SVD)について解説します.
LSAは文書の分類や,情報検索の分野(この分野ではLSIとして知られる)などに使われるトピックモデルの代表例として知られています.
このモデルを使うと,単語と文書のそれぞれの組み合わせについて,類似度を測れるようになります.
【論文解説】A Generalized Language Model as the Combination of Skipped n-grams and Modified Kneser-Ney Smoothing
文責:菊地真人
著者:Rene Pickhardt, Thomas Gottron, Martin Korner, Steffen Staab
会議名:ACL 2014
開催年:2014
【論文解説】Richer Interpolative Smoothing Based on Modified Kneser-Ney Language Modeling
【論文解説】Learning Certifiably Optimal Rule Lists
文責:菊地真人
著者:Elaine Angelino, Nicholas Larus-Stone, Daniel Alabi, Margo Seltzer, Cynthia Rudin
会議名:SIGKDD 2017
開催年:2017
【論文解説】Kneser-Ney Smoothing on Expected Counts
動的計画法がわかる!ダイクストラ法の実装(Python)や問題への適用手順
執筆:金子冴
今回は,Viterbiアルゴリズムの解説(【技術解説】HMMに基づいたViterbiアルゴリズムによる解推定手法(例題つき))をした際に登場した動的計画法について,その解説と,簡単な例を用いたプログラム(Python)での実装例を紹介する.また,問題文から動的計画法を用いて問題を解決する際のプロセス(漸化式の作成方法等)についても触れながら,具体的な応用方法について確認する.まずは,動的計画法とはどういうものなのか,概要を確認しよう.
【人工知能(AI)】ディープラーニングの仕組み!中学生でもなんとなくわかる!【入門】
人工知能(AI)やDeepLearning(ディープラーニング),この頃よく聞きますよね.
しかし,いまいち何なのかよくわからないという人は多いのではないでしょうか.
私の周りの人たちも教養として興味はあるけれども,数式が出てくると何がなんだかという人が多いようです.
また,人工知能やディープラーニングをビジネスに応用したいけど何ができるのか全く見当もつかないといった人も多いようです.
そもそも,ディープラーニングとはなんのことなんでしょう.AIや機械学習との違いはどこにあるのでしょう.
そこで今回はエンジニアや理系の学生でない人に向けて,ディープラーニング(主にその基礎となるニューラルネット)の仕組み,原理,アルゴリズムや種類,それが何の役に立つのかについて解説してみようと思います.
このような場合には,よくわからない記号が出てくる数式は避けるべきだと思います.
しかし,すべてを包み隠されて説明しても納得できないと思うので,今回は入門者や初学者を対象に中学校で習う範囲の知識で,簡単になんとなく理解できるように工夫して書いてみます.
難しい部分は数式の代わりに図解していきます.
もしこの記事で興味を持ってもっと知りたいと思ったら,線形代数,微分積分,統計学を勉強してみることをおススメします.
【技術解説】HMMに基づいたViterbiアルゴリズムによる解推定手法(例題つき)
執筆:金子冴
今回は,形態素解析器であるMeCab,Chasen,JUMANで解探索アルゴリズムに採用されているViterbiアルゴリズム(Viterbi algorithm)について解説する.