人工知能・機械学習・自然言語処理周辺の技術情報

Category Archives: 自然言語処理

【技術解説】似ている文字列がわかる!レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは

執筆:金子冴

人はだれしも間違いを犯すものである.徹夜で仕上げた報告書を提出した後,よく見直してみると誤字脱字が山ほど見つかった経験が読者にもあるだろう(もしかすると私だけかもしれないが).そういう時,もし自動で間違っている単語を見つけてくれるプログラムがあったら…と考える人もいるかもしれない.そこで今回は,文字列同士の似ている度合いを計算する2つの手法を紹介しよう.
 ●レーベンシュタイン距離(Levenshtein Distance)
 ●ジャロ・ウィンクラー距離(Jaro-winkler Distance)

(more…)

関連記事はこちら

【技術解説】単語の重要度を測る?TF-IDFとOkapi BM25の計算方法とは

執筆:金子冴

世の中には単なるメモ書きから予算案,スポーツ記事や文学作品等,数えられないほどの文書が存在する.例えば,その数多の文書から「スポーツに関する記事が読みたい」と思った時,どれがスポーツに関する文書なのか判断する必要があるだろう.しかし,すべての文書を目で読んで判断することは到底不可能であり,現実的ではない.今回は,数多の文書に含まれる単語の重要度を測る手法であるTF-IDFOkapi BM25について解説する.

(more…)

関連記事はこちら