GPT (言語モデル)

大規模言語モデルの種類 ウィキペディアから

GPT (言語モデル)

Generative Pre-trained TransformerGPT)は、OpenAIによる言語モデルのファミリーである。通常、大規模なテキストデータのコーパスで訓練され、人間的な文章を生成する。

Thumb
オリジナルのGPTモデル

Transformerアーキテクチャのデコーダー部分のみを使用し、Universal Language Model Fine-tuning(ULMFiT)と同じ言語モデルアプローチを採用している[1]テキスト生成翻訳文書分類など諸々の自然言語処理に合わせてファインチューニングできる。名称に含まれる"pre-trained"(事前訓練)とは、大量のテキストコーパスによる最初の訓練プロセスを指し、モデルは、各節に続く単語を予測するよう学習する。これによりもたらされる強固な基盤によって、各処理固有の下流処理が限定的なデータ量であってもモデルが適切に動作する。

OpenAIの最新のGPT基盤モデルであるGPT-4は、2023年3月14日にリリースされました[2]。ユーザーはChatGPTのプレミアムバージョンを通じて直接アクセスでき、開発者はOpenAIのAPIを利用して他の製品やサービスに組み込むことができます。その他のGPT基盤モデルの開発者には、EleutherAI(2021年3月から始まる一連のモデル)[3][4][5]や、2023年3月に7つのモデルを発表したセレブラス[6]が含まれます。

GPT-1

2018年6月11日、OpenAIは"Improving Language Understanding by Generative Pre-Training"というタイトルの論文をリリースし、その中でGPT(Generative Pre-trained Transformer)を導入した[7]

この時点では最高のパフォーマンスを行うニューラル自然言語処理モデルは、主に手動でラベル付けされた大量のデータからの教師あり学習を採用していた。この教師あり学習への依存は、十分に注釈が付けられていないデータセットの使用を制限するだけでなく、非常に大規模なモデルの訓練に莫大な費用と時間がかかっていた[7][8]。多くの言語(スワヒリ語ハイチ・クレオール語など)は、コーパス構築に使用できるテキストが不足しているため、このようなモデルを使用して翻訳や解釈をすることが難しい[8]。これに対して、GPTの「半教師あり」アプローチには2つの段階が含まれていた。2つの段階は、言語モデリングの目的を使用して初期パラメータを設定する教師なし生成「事前訓練」段階と、これらのパラメータがターゲットとするタスクに適合された教師あり識別「ファインチューニング」段階である[7]

訓練には NVIDIA Quadro P600 を8枚30日使用し、実行効率33%のため、0.96ペタFLOPS・日となった。[9]

シリーズ一覧

さらに見る 名称, 用途 ...
名称 用途 アーキテクチャ パラメータ数 訓練データ リリース日
GPT-1 汎用 12-level, 12-headedのTransformerデコーダ(エンコーダなし)、linear-softmaxによりフォローされる。 1億1700万 BookCorpus[10] 様々なジャンルの7000冊の未発表書籍からの4.5GBのテキスト 2018年6月11日[9]
GPT-2 汎用 GPT-1 + 正規化/初期化 15億 WebText(40GB) 2019年2月14日
GPT-3 汎用 GPT-2 + スパースアテンション 1750億[11] 570GBのプレーンテキスト、4000億のトークン。主にCommonCrawl, WebText, English Wikipedia, および2つの書籍コーパス(Books1およびBooks2). 2020年6月11日[12]
Codex プログラミング GPT-3をプログラミング用途に調整 2021年8月10日[13]
InstructGPT 会話 GPT-3を人間のフィードバックによる指示に従うよう微調整[14] 2022年3月4日
GPT-3.5 汎用 非公開 非公開 非公開 2022年3月15日
ProtGPT2 タンパク質配列[15] GPT-2 large(36層)と同様 7億3800万 UniRef50からのタンパク質配列(計4488万、検証のために10%を使用した後) 2022年7月27日
BioGPT 生物医学のコンテンツ[16][17] GPT-2 medium(24層、16 heads)と同様 3億4700万 PubMedの空でない項目(計150万) 2022年9月24日
ChatGPT 会話 GPT-3.5を使用し、教師あり学習とRLHF[18]の両方でファインチューニングされている(転移学習のアプローチ)[19] 非公開 非公開 2022年11月30日
GPT-4 汎用、マルチモーダル[20] テキスト予測とRLHFの両方で訓練されている。詳細非公開[21] 非公開 非公開 2023年3月14日
閉じる

出典

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.