Loading AI tools
ウィキペディアから
自己教師あり学習(じこきょうしありがくしゅう、英: self-supervised learning、SSL)とは、ラベルのないデータを使用して、下流の学習タスクに有用な表現を得るための機械学習パラダイムとその手法である。SSL手法の最も顕著な特徴は、人間が注釈を付けたラベルを必要としないことにある。すなわち、ラベルが付いていないデータサンプルで構成されたデータセットを取り込むように設計されている。典型的なSSLパイプラインは、第一段階で教師信号(ラベルは自動的に生成される)を学習し、それを第二段階以降で何らかの教師あり学習タスクに利用する構成となっている。このような理由から、SSLは教師なし学習と教師あり学習の中間的な形態として説明できる。
典型的なSSL手法は、人工ニューラルネットワークや、決定リストのような他のモデルに基づいている[1]。このモデルは2段階で学習する。まず、モデルのパラメータを初期化するのに有用な擬似ラベルを使用した補助的あるいはプレテキスト分類タスク(pretext classification task)に基づくタスク解決が行われる[2][3]。次に、教師あり学習または教師なし学習によって、実際のタスクが行われる[4][5][6]。他の補助タスクは、マスク化入力パターン(音声の無音一時停止や、部分的に黒塗りされた画像)からのパターン補完を含む。
自己教師あり学習は、近年有望な成果を上げており、音声処理で実用化され、Facebookなどの音声認識に使用されている[7]。SSLの主な魅力は、最終結果を向上させることではなく、より低品質のデータで学習が可能なことである。自己教師あり学習は、人間が物事の分類を学習する方法をより忠実に模倣する[8]。
二値分類タスクの場合、トレーニングデータは正例と負例に分けることができる。正例とは、ターゲットと一致するものである。たとえば、鳥の識別を学習している場合、鳥が写っている写真が正例の学習データとなる。負例は、そうでないものをいう[9]。
自己教師あり対照学習(英: contrastive self-supervised learning)は教師ラベルを用いない対照学習である[9]。正例を用意する代表的な方法に以下が挙げられる:
また負例を用意する代表的な方法に以下が挙げられる:
自己教師あり非対照学習(non-contrastive self-supervised learning、NCSSL)では、正例のみを使用する。直感に反して、NCSSLは自明解に到達するのではなく、有用な局所最小値に収束し、損失はゼロになる。二値分類の例では、NCSSLは通常、各例を正と分類するように学習する。効果的なNCSSLでは、ターゲット側に逆伝播しないオンライン側の追加の予測器を要する[9]。
入力から分類された出力を生成することを目的とする限り、SSLは教師あり学習法である。そうではあるが、ラベル付きの入力と出力の組を明示的に使用する必要はない。代わりにデータから相関関係、データに埋め込まれたメタデータ、または入力に存在するドメイン知識が暗黙的かつ自律的に抽出される。データから生成されたこれらの監視信号は、トレーニングに使用することができる[8]。
SSLは、サンプルデータにラベルを必要としない点で、教師なし学習法と似ている。ただし、教師なし学習とは異なり、データに内在する構造から学習するものではない。
半教師あり学習法(semi-supervised learning)は、教師あり学習と教師なし学習を組み合わせたもので、学習データのごく一部にラベルを付ける必要がある[3]。
転移学習では、あるタスクのために開発されたモデルを、別のタスクで再利用する[10]。
オートエンコーダのトレーニングは、出力パターンが入力パターンの最適な再構成になる必要があるため、本質的には自己教師ありのプロセスを構成する。しかし、現在の専門用語では、「自己教師あり(self-supervised)」という用語は、プレテキストタスク(pretext task)のトレーニング設定に基づく分類タスクに関連している。これは、完全に自己完結したオートエンコーダのトレーニングの場合とは異なり、そのようなプレテキストタスクを(人間が)設計することになる[11]。
強化学習では、損失の組み合わせによる自己教師あり学習により、状態に関する最も重要な情報のみが圧縮された形で保持される抽象的な表現を形成することがある[12]。
自己教師あり学習は、音声認識で特に適している。たとえば、Facebookは、音声認識のための自己教師ありアルゴリズムであるwav2vecを開発し、相互に構築し合う2つの深い畳み込みニューラルネットワークを使用している[7]。
GoogleのBERTモデルは、検索クエリのコンテキストをよりよく理解するために使用されている[13]。
OpenAIのGPTは、言語処理に使用できる自己回帰言語モデルである。テキストの翻訳や質問への回答などに使用することができる[14]。
Bootstrap Your Own Latent(BYOL)はNCSSLであり、ImageNetや転位、半教師ありベンチマークで優れた結果を出した[15]。
Yarowskyアルゴリズムは、自然言語処理における自己教師あり学習の例である。ラベル付けされた少数の例から、多義語のどの語義がテキスト中の特定の部分で使用されているかを予測するように学習する。
FacebookのDirectPredは、勾配更新による学習の代わりに、予測器の重みを直接設定するNCSSLである[9]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.