人工知能・機械学習・自然言語処理周辺の技術情報

Category Archives: 技術解説

技術解説
研究ブログ
自然言語処理
非エンジニア向け

【品詞別】日本語のストップワード辞書・正規表現とその考察【自然言語処理】

執筆:内野良一

自然言語処理の各タスクで前処理としてストップワードの除去があります.
解析の精度を上げるために不要な記号や単語を等をデータセットから除去します.
ストップワードの選定にはタスクに特化した分析が必要ですが,ある程度整理されているデータがあるととても助かります.
そこで,今回は私が自然言語処理のタスクでよく行う,日本語のストップワードについてまとめました.
また単語の分布などから,品詞ごとのストップワードに対する考察も行いました.
このことからストップワードを介して自然言語処理のあまり語らることのない知識などをご共有できればと思います.
(この記事の考察部分は主に自然言語処理の初心者を対象としています.)

(more…)

関連記事はこちら

【技術解説】統計学「頻度主義」と「ベイズ主義」の違いとは【徹底比較】

執筆:内野良一

ベイズ統計学ベイズ主義)は一般的な統計学(頻度論的統計学,頻度主義)と何が違うのでしょうか.
それぞれについての解説は多くありますが,それらの違いについて体系的にまとめた資料がほとんど見つからなかったのでまとめてみました.
データサイエンティスト機械学習エンジニアと呼ばれる人でも,これらの違いを説明するとなると戸惑うこともあると思います.
今回はその基礎や歴史的経緯も含め,「違い」に焦点を当てて解説していきたいと思います.
長い記事ですので急ぐ方はページ下部の表に違いをまとめたのでそちらをご参照ください.

(more…)

関連記事はこちら

【技術解説】確率的潜在意味解析(PLSA)のアルゴリズムと応用

執筆:内野良一

今回は潜在意味解析(Latent Semantic Analysis: LSA)を確率的に発展させたトピックモデル確率的潜在意味解析(PLSA)について解説します.
このモデルを使うと潜在的な意味をトピックとして抽出でき,そのトピック内で単語と文書が出現する確率がわかります.主に既存のデータの分析に用いられています.

(more…)

関連記事はこちら

【技術解説】潜在意味解析(LSA) ~特異値分解(SVD)から文書検索まで~

執筆:内野良一

今回は潜在意味解析(Latent Semantic Analysis: LSA)特異値分解(Singular Value Decomposition: SVD)について解説します.
LSAは文書の分類や,情報検索の分野(この分野ではLSIとして知られる)などに使われるトピックモデルの代表例として知られています.
このモデルを使うと,単語と文書のそれぞれの組み合わせについて,類似度を測れるようになります.

(more…)

関連記事はこちら

動的計画法がわかる!ダイクストラ法の実装(Python)や問題への適用手順

執筆:金子冴
校閲:内野良一

今回は,Viterbiアルゴリズムの解説(【技術解説】HMMに基づいたViterbiアルゴリズムによる解推定手法(例題つき))をした際に登場した動的計画法について,その解説と,簡単な例を用いたプログラム(Python)での実装例を紹介する.また,問題文から動的計画法を用いて問題を解決する際のプロセス(漸化式の作成方法等)についても触れながら,具体的な応用方法について確認する.まずは,動的計画法とはどういうものなのか,概要を確認しよう.

(more…)

関連記事はこちら

【技術解説】HMMに基づいたViterbiアルゴリズムによる解推定手法(例題つき)

執筆:金子冴
校閲:内野良一

今回は,形態素解析器であるMeCab,Chasen,JUMANで解探索アルゴリズムに採用されているViterbiアルゴリズム(Viterbi algorithm)について解説する.

(more…)

関連記事はこちら

【技術解説】マルコフモデルと隠れマルコフモデル

執筆:金子冴
校閲:内野良一

今回はマルコフモデルと,マルコフモデルを拡張した隠れマルコフモデルを題材に,それぞれのモデルの解説と2つのモデルの違いについて解説する.
まずはマルコフモデルについて解説しよう.

(more…)

関連記事はこちら

【技術解説】CRF(Conditional Random Fields)

執筆:金子冴
校閲:内野良一

今回は,形態素解析器の1つであるMeCab内で学習モデルとして用いられているCRF(Conditional random field)について解説する.
初めに,CRFのwikipediaの定義を確認しよう.

(more…)

関連記事はこちら

【技術解説】bi-gramマルコフモデル

執筆:金子冴
校閲:内野良一

今回は,形態素解析器の1つであるMeCab内で解析モデルとして用いられているbi-gram マルコフモデルについて解説する.

初めに,bi-gramの元となっている,N-gramという手法を解説しよう.

(more…)

関連記事はこちら

【技術解説】形態素解析とは?MeCabインストール手順からPythonでの実行例まで

執筆:金子冴
校閲:内野良一

今回は,自然言語処理分野で事前処理として用いられることが多い形態素解析に着目し,形態素解析を行う目的や,主要な形態素解析器の比較を行う.また,形態素解析器の1つであるMeCabを取り上げ,インストール方法や実行例,商用利用の注意点等を確認する.また,次回以降の記事にて,MeCabで用いられている以下のアルゴリズムについて解説する.
●bi-gram マルコフモデル(解析モデル)
●CRF(Conditional Random Fields)(学習モデル)
●Viterbi(解探索アルゴリズム)

初めに,形態素解析の概要とメリット,注意点について確認しよう.

(more…)

関連記事はこちら