基於轉換器的生成式預訓練模型

上級分類	大型語言模型
簡稱	GPT

基於轉換器的生成式預訓練模型^[1]（英語：Generative pre-trained transformers，GPT）是一種大型語言模型（LLM）^[2]^[3]^[4]，也是生成式人工智慧的重要框架^[5]^[6]。首個GPT由OpenAI於2018年推出^[7]。GPT模型是基於Transformer模型的人工神經網絡，在大型未標記文本數據集上進行預訓練，並能夠生成類似於人類自然語言的文本^[3]^[4]。截至2023年，大多數LLM都具備這些特徵^[8]，並廣泛被稱為GPT^[9]^[10]。

Quick Facts 上級分類, 簡稱 ...

Close

OpenAI發布了具有極大影響力的GPT基礎模型，它們按順序編號，構成了「GPT-n」系列^[11]。由於其規模（可訓練參數數量）和訓練程度的提升，每個模型相較於前一個都顯著增強。其中最新的模型是GPT-4o，於2024年5月發布。這些模型為更具任務特定性的GPT系統奠定了基礎，包括經過微調以適應特定指令的模型——而這些又反過來為ChatGPT 聊天機器人服務提供了支持^[2] 。

術語「GPT」還用於命名和描述其他開發者所開發的模型。例如，其他GPT基礎模型包括EleutherAI（英語：EleutherAI）開發的一系列模型^[12]，以及Cerebras（英語：Cerebras）開發的七個模型^[13]。此外，不同行業的公司還在其各自領域開發了執行特定任務的GPT，例如賽富時的「EinsteinGPT」（用於客戶關係管理）^[14]和彭博的「BloombergGPT」（用於金融領域）^[15]。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]