GPT-2

Generative Pre-trained Transformer 2 (GPT-2)
	GPT-2がプロンプトを補完する様子を示すHugging FaceのWrite With Transformerのウェブサイト。Wikipediaのこの記事から得たテキストをプロンプトとして用いた。最初のプロンプトに続くハイライトされたテキストはすべて最初の補完候補から機械的に生成されたもので、それ以外の編集はない。
作者	OpenAI
初版	14 February 2019年 (5年前)
リポジトリ	https://github.com/openai/gpt-2
前身	GPT-1
後継	GPT-3
種別	Transformer 言語モデル
公式サイト	openai.com/blog/gpt-2-1-5b-release/
	テンプレートを表示

Generative Pre-trained Transformer 2（GPT-2）は、2019年2月にOpenAIによって開発されたオープンソースの人工知能ソフトウェアである^[1]^[2]^[3]^[4]。GPT-2は、テキストを翻訳し、質問に答え、文章の要約を行い^[5]、時には人間と見分けがつかないようなテキスト出力を生成するが^[6]、長い文章を生成すると繰り返したり意味不明な表現になることもある^[7]。GPT-2は、多目的学習器であり、特定のタスク（仕事）を行うための特別な訓練を受けてはおらず、これらのタスクを行う能力は、任意の順序で次の項目を正確に合成する一般的な能力の延長線上にある^[8]^[5]。GPT-2は、OpenAIの2018年版GPTモデルの「スケールアップ版」として構築され^[9]、パラメータ数と訓練用データセットがともに10倍に増加した^[4]。

概要作者, 初版 ...

閉じる

GPTアーキテクチャは、ディープラーニング（深層学習）によるニューラルネットワーク、具体的には「トランスフォーマー（Transformer）モデル」を実装しており^[9]、これまでの回帰型や畳み込み型のアーキテクチャの代わりに「アテンション」を使用している^[10]^[11]。アテンション機構により、モデルは、入力テキストの中から最も関連性が高いと予測される部位に選択的に焦点を当てることができる^[12]^[13]。このモデルでは、並列化を大幅に向上させることができ、RNN／CNN／LSTMに基づくモデルのこれまでのベンチマークよりも優れた性能を発揮している^[9]。

OpenAIは、2019年11月、GPT-2言語モデルの完全版（15億個のパラメータを含む）を公開した^[14]。GPT-2に続いて、1,750億個のパラメータを含むGPT-3^[15]が、2020年に公開される予定だった^[16]（そのソースコードは公開されていない）。GPT-3へのアクセスは、OpenAIとマイクロソフトが提供するアプリケーションプログラミングインタフェース（API）を通じてのみ提供されている^[17]。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]