ニューラル機械翻訳

ディープラーニングの応用は、1990年代に音声認識で最初に登場した。機械翻訳でのニューラルネットワークの利用に関する最初の科学論文は2014年に登場し、その後の数年間で多くの進歩（大語彙NMT、画像キャプションへの応用、サブワードNMT、多言語NMT、マルチソースNMT、Character-dec NMT、Zero-Resource NMT、Google、Fully Character-NMT、2017年のZero-Shot NMT）があった。2015年に、公開の機械翻訳コンテスト (OpenMT '15) でNMTシステムが初めて登場した。WMT'15にも初めてNMTシステムが登場し、翌年にはすでに入賞者の中にNMTシステムの90％が含まれた^[4]。

ニューラル機械翻訳は、個別に設計されたサブコンポーネントを使用するフレーズベースの統計的（英語版）アプローチとは異なる^[5]。ニューラル機械翻訳 (NMT) は、統計的機械翻訳 (SMT) で従来行われてきたことを超える抜本的なステップではない。その主な出発点は、単語と内部状態のためのベクトル表現（「埋め込み」、「連続空間表現」）の使用である。モデルの構造は、フレーズベースのモデルよりも単純である。個別の言語モデル、翻訳モデル、並び替えモデルはなく、一度に1つの単語を予測する単一のシーケンスモデルのみがある。しかし、このシーケンス予測は、ソースセンテンス（原文）全体と、すでに生成されたターゲットシーケンス全体を条件としている。NMTモデルでは、深層学習（ディープラーニング）と特徴学習（英語版）を利用している。

単語列モデリングは、最初はリカレントニューラルネットワーク (RNN) を用いて行われるのが一般的であった。エンコーダとして知られる双方向リカレントニューラルネットワークは、ターゲット言語の単語を予測するために使用されるデコーダと呼ばれる第2のRNNのソースセンテンスをエンコードするため、ニューラルネットワークによって使用される^[6]。リカレントニューラルネットワークは、長い入力を単一のベクトルにエンコードする際に困難に直面する。これは、出力の各単語を生成している間にデコーダが入力のさまざまな部分に焦点を合わせることができる注意メカニズム（英: attention mechanism）^[7]によって補正できる。重複訳や訳抜けにつながる過去のアライメント情報を無視するなど、このような注意メカニズムの問題に対処するカバレッジモデル（英: Coverage Models）がさらに存在する^[8]。

畳み込みニューラルネットワーク（英: Convolutional Neural Networks、Convnets）は、原理的には長い連続シーケンスに対していくらか優れているが、いくつかの弱点があったために当初は使用されなかった。これらは「注意メカニズム」を使用することにより、2017年にうまく補償された^[9]。

注意ベースのモデルであるトランスフォーマーアーキテクチャは^[10]、いくつかの言語ペアの主要アーキテクチャとして存続している^[11]。

ニューラル機械翻訳

特徴

歴史

仕組み

参照項目

Wikiwand - on