人工知能・機械学習・自然言語処理周辺の技術情報

2018-10-02

【論文解説】A Generalized Language Model as the Combination of Skipped n-grams and Modified Kneser-Ney Smoothing

文責:菊地真人

著者:Rene Pickhardt, Thomas Gottron, Martin Korner, Steffen Staab
会議名:ACL 2014
開催年:2014

目次

どんなもの?
先行研究と比較して
技術や手法の要点
有効性の検証
議論の余地はあるか

どんなもの?

Skipped n-gramモデルを再帰的に探索する言語モデルを構築した.言語モデルの構築には,Modified Kneser-Ney (MKN)スムージングを利用する.従来の言語モデルと比較してパープレキシティの削減を実現した.さらに,小規模な訓練データを用いた場合に大幅なパープレキシティの削減を達成した.

先行研究と比較して

Skipped n-gramモデルを完全に取り入れた言語モデルはこれまでに提案されていない.本稿のアプローチはSkipped n-gramが表現しうるすべての組み合わせを考慮し,それらを追加することによって高次モデルを補間する点で独自である.

技術や手法の要点

局所的なコンテキストの先頭文字を取り除いた一つの低次モデルのみを線形補間するのではなく,その他に考えうるSkipped n-gramモデルのすべてを線形補間する(なぜなら,全体のn-gramが低頻度の場合に,単一の低次モデルのみではスパース性を十分に補えないため).

有効性の検証

一般ドメインのデータセットとして,ウィキペディアから収集した英語・ドイツ語・フランス語・イタリア語のテキストデータを用いた.特定ドメインのデータセットとして,多言語の法的テキストコーパスであるJCR-Acquis Corpusを用いた.大規模な訓練データを用いた実験では,MKN言語モデルと比較してパープレキシティが最大12.7%減少した.さらに,訓練データを小規模にするとパープレキシティが最大25.7%も減少した.最後に,訓練データに含まれない文字列のみを収集したテストデータ(unseenとする),最低1回は訓練データに含まれる文字列のみを収集したテストデータ(observedとする)を用いてパープレキシティを測定した.結果として,テストデータをunseenとした場合に大きくパープレキシティが減少することがわかった.これは小規模の訓練データを用いた場合に,提案手法が良い性能を与えうることを意味している.

議論の余地はあるか

線形補間する低次モデルに異なった重みを付与したい.このような重みは,低次モデルごとに異なった統計的信頼性を与えることができる.Map-Redeuceなどの方法を用いて,提案手法の計算時間・メモリ使用量を削減したい.MKNスムージングでn-gramの長さをn=7まで拡張しても性能改善に繋がらないことがわかっている.提案手法を応用することで,この性能改善を実現できると考えている.提案手法を機械翻訳,音声認識,文書分類,単語のスペリング修正などへ応用したい.