【論文解説】Richer Interpolative Smoothing Based on Modified Kneser-Ney Language Modeling

文責：菊地真人

著者：Ehsan Shareghi, Trevor Cohn, Gholamreza Haffari
会議名：EMNLP 2016
開催年：2016

どんなもの？

Discount（割引値）パラメータを追加することでModified Kneser-Ney（MKN）スムージングを一般化した．ヨーロッパ圏の様々な言語を用いた実験で，一般化したMKNスムージングの実用性を示した．さらに，訓練データのサイズ，言語モデルの次元，割引値パラメータの間にある相互依存性を調査した．

先行研究と比較して

MKN言語モデルの既存研究は高速化やコンパクト化に焦点を当てたものが主だった．例外としてHierarchical Pitman-yor Process言語モデルが存在し，MKNスムージングがその近似推論法に対応する．しかし，本稿のようにMKNスムージングを直接的に豊かにしようと試みた研究はない．

技術や手法の要点

m-gramの観測頻度が0，3未満，3以上に応じて場合分けされる割引値パラメータの定義を，頻度が0，k未満，k以上で定義されるように一般化した．このkは任意に設定できる．

有効性の検証

Europarl v7コーパスを訓練データとテストデータに分割し，パープレキシティを測定した．コーパスに含まれるフィンランド語，スペイン語，ドイツ語，英語の部分を使用した．各言語の部分から最初の10,000文を取り除き，それをインドメインのテストデータとした．続く10,000文をコーパスから取り除き，その残りを訓練データとした．ドメイン不一致に対する提案手法の効果を確認するため，アウトドメインのテストデータを二種類用意した．(1) 平易な使い方をテストするため，各言語のニュース記事コーパスを使用した．(2) 極端な使い方をテストするため，フィンランド語とスペイン語のツイート，ドイツ語と英語では医療翻訳タスクのデータを使用した．

パープレキシティ：

アウトドメインのテストデータでは，割引値パラメータを増やすほどパープレキシティが減少する傾向が見られた．ただし，インドメインのテストデータではこの傾向が見られなかった．

訓練データのサイズ，言語モデルの次元 m，パラメータの相互依存性：

訓練データが小さく，テスト実行時に未知語（OOV）が多く出現するほど，多数の割引値パラメータを導入することでパープレキシティが低下することを示した．訓練データが十分大きい場合は，パープレキシティの低下がわずかであった．

議論の余地はあるか

アウトドメインの語彙をエレガントに扱うことができるため，ドメイン適用などに応用できると考えている．今後の課題として，本稿のMKN言語モデルをMoses（モーゼ）という機械翻訳モデルに統合し，アウトドメインによる翻訳が翻訳品質に与える影響を測ることが挙げられる．

人工知能・機械学習・自然言語処理周辺の技術情報

目次