人工知能・機械学習・自然言語処理周辺の技術情報

動的計画法がわかる!ダイクストラ法の実装(Python)や問題への適用手順

執筆:金子冴
校閲:内野良一

今回は,Viterbiアルゴリズムの解説(【技術解説】HMMに基づいたViterbiアルゴリズムによる解推定手法(例題つき))をした際に登場した動的計画法について,その解説と,簡単な例を用いたプログラム(Python)での実装例を紹介する.また,問題文から動的計画法を用いて問題を解決する際のプロセス(漸化式の作成方法等)についても触れながら,具体的な応用方法について確認する.まずは,動的計画法とはどういうものなのか,概要を確認しよう.

(more…)

【非エンジニア向け】中学生でもなんとなくわかるDeepLearningのアルゴリズム【入門】

執筆:内野良一

人工知能系の話題で近年よく耳にするDeepLearning(ディープラーニング)ですが,いまいちなんなのかわからないという人は多いのではないでしょうか.
私の周りの人たちも,教養として興味はあるけど数式がでてくるとなにがなんだかという人が多いようです.
そこで今回は,エンジニアや理系大学生でない人に向けてDeepLearning(主にその基礎となるニューラルネット)を解説してみようと思います.
このような場合には,よくわからない記号が出てくる数式は避けるべきだと思います.
しかし,すべてを包み隠されて説明しても納得できないと思うので,今回は中学校で習う範囲の知識のみでなんとなく理解できるように工夫して書いてみます.
どうしようもない部分は数式の代わりに図を使って説明していきます.
この記事で興味を持ってもっと知りたいと思ったら線形代数,微分積分,統計学を勉強してみることをおススメします.

(more…)

【技術解説】形態素解析とは?MeCabインストール手順からPythonでの実行例まで

執筆:金子冴
校閲:内野良一

今回は,自然言語処理分野で事前処理として用いられることが多い形態素解析に着目し,形態素解析を行う目的や,主要な形態素解析器の比較を行う.また,形態素解析器の1つであるMeCabを取り上げ,インストール方法や実行例,商用利用の注意点等を確認する.また,次回以降の記事にて,MeCabで用いられている以下のアルゴリズムについて解説する.
●bi-gram マルコフモデル(解析モデル)
●CRF(Conditional Random Fields)(学習モデル)
●Viterbi(解探索アルゴリズム)

初めに,形態素解析の概要とメリット,注意点について確認しよう.

(more…)

【技術解説】集合の類似度(Jaccard係数,Dice係数,Simpson係数)

執筆:金子冴
校閲:内野良一

前回の記事(【技術解説】似ている文字列がわかる!レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは)では,文字列同士の類似度(距離)が計算できる手法を紹介した.また,その記事の中で,自然言語処理分野では主に文書,文字列,集合等について類似度を計算する場面が多いことについても触れた.今回は集合同士の類似度を表現する以下の3つの係数と計算方法について解説する.
●Jaccard係数
●Dice係数
●Simpson係数

その前に,自然言語処理で類似度を表す指標について確認しよう.

(more…)

【技術解説】似ている文字列がわかる!レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは

執筆:金子冴
校閲:内野良一

人はだれしも間違いを犯すものである.徹夜で仕上げた報告書を提出した後,よく見直してみると誤字脱字が山ほど見つかった経験が読者にもあるだろう(もしかすると私だけかもしれないが).そういう時,もし自動で間違っている単語を見つけてくれるプログラムがあったら…と考える人もいるかもしれない.そこで今回は,文字列同士の似ている度合いを計算する2つの手法を紹介しよう.
 ●レーベンシュタイン距離(Levenshtein Distance)
 ●ジャロ・ウィンクラー距離(Jaro-winkler Distance)

(more…)

【技術解説】単語の重要度を測る?TF-IDFとOkapi BM25の計算方法とは

執筆:金子冴
校閲:内野良一

世の中には単なるメモ書きから予算案,スポーツ記事や文学作品等,数えられないほどの文書が存在する.例えば,その数多の文書から「スポーツに関する記事が読みたい」と思った時,どれがスポーツに関する文書なのか判断する必要があるだろう.しかし,すべての文書を目で読んで判断することは到底不可能であり,現実的ではない.今回は,数多の文書に含まれる単語の重要度を測る手法であるTF-IDFOkapi BM25について解説する.

(more…)