ニューラル機械翻訳

ウィキペディアから

ニューラル機械翻訳(ニューラルきかいほんやく、: neural machine translation、NMT)は、人工ニューラルネットワークを使用して単語の並びの尤度(ゆうど、確からしさ)を予測する機械翻訳へのアプローチであり、通常は単一の統合モデルで文全体をモデル化する。

特徴

これは、従来の統計的機械翻訳英語版: statistical machine translation、SMT)モデルで必要とされるメモリのごく一部しか必要としない。さらに、従来の翻訳システムとは異なり、翻訳性能を最大化するために、ニューラル翻訳モデルのすべての部分が一緒に(エンド・ツー・エンドで)訓練される[1][2][3]

歴史

ディープラーニングの応用は、1990年代に音声認識で最初に登場した。機械翻訳でのニューラルネットワークの利用に関する最初の科学論文は2014年に登場し、その後の数年間で多くの進歩(大語彙NMT、画像キャプションへの応用、サブワードNMT、多言語NMT、マルチソースNMT、Character-dec NMT、Zero-Resource NMT、Google、Fully Character-NMT、2017年のZero-Shot NMT)があった。2015年に、公開の機械翻訳コンテスト (OpenMT '15) でNMTシステムが初めて登場した。WMT'15にも初めてNMTシステムが登場し、翌年にはすでに入賞者の中にNMTシステムの90%が含まれた[4]

仕組み

ニューラル機械翻訳は、個別に設計されたサブコンポーネントを使用するフレーズベースの統計的英語版アプローチとは異なる[5]。ニューラル機械翻訳 (NMT) は、統計的機械翻訳 (SMT) で従来行われてきたことを超える抜本的なステップではない。その主な出発点は、単語と内部状態のためのベクトル表現(「埋め込み」、「連続空間表現」)の使用である。モデルの構造は、フレーズベースのモデルよりも単純である。個別の言語モデル、翻訳モデル、並び替えモデルはなく、一度に1つの単語を予測する単一のシーケンスモデルのみがある。しかし、このシーケンス予測は、ソースセンテンス(原文)全体と、すでに生成されたターゲットシーケンス全体を条件としている。NMTモデルでは、深層学習(ディープラーニング)と特徴学習英語版を利用している。

単語列モデリングは、最初はリカレントニューラルネットワーク (RNN) を用いて行われるのが一般的であった。エンコーダとして知られる双方向リカレントニューラルネットワークは、ターゲット言語の単語を予測するために使用されるデコーダと呼ばれる第2のRNNのソースセンテンスをエンコードするため、ニューラルネットワークによって使用される[6]。リカレントニューラルネットワークは、長い入力を単一のベクトルにエンコードする際に困難に直面する。これは、出力の各単語を生成している間にデコーダが入力のさまざまな部分に焦点を合わせることができる注意メカニズム(: attention mechanism[7]によって補正できる。重複訳や訳抜けにつながる過去のアライメント情報を無視するなど、このような注意メカニズムの問題に対処するカバレッジモデル(: Coverage Models)がさらに存在する[8]

畳み込みニューラルネットワーク(: Convolutional Neural Networks、Convnets)は、原理的には長い連続シーケンスに対していくらか優れているが、いくつかの弱点があったために当初は使用されなかった。これらは「注意メカニズム」を使用することにより、2017年にうまく補償された[9]

注意ベースのモデルであるトランスフォーマーアーキテクチャ[10]、いくつかの言語ペアの主要アーキテクチャとして存続している[11]

参照項目

Wikiwand - on

Seamless Wikipedia browsing. On steroids.