基於轉換器的生成式預訓練模型
大型语言模型的种类 / 維基百科,自由的 encyclopedia
基於轉換器的生成式預訓練模型[1](英語:Generative pre-trained transformers,GPT)是一種大型語言模型(LLM)[2][3][4],也是生成式人工智慧的重要框架[5][6]。首個GPT由OpenAI於2018年推出[7]。GPT模型是基於Transformer模型的人工神經網絡,在大型未標記文本數據集上進行預訓練,並能夠生成類似於人類自然語言的文本[3][4]。截至2023年,大多數LLM都具備這些特徵[8],並廣泛被稱為GPT[9][10]。
OpenAI發布了具有極大影響力的GPT基礎模型,它們按順序編號,構成了「GPT-n」系列[11]。由於其規模(可訓練參數數量)和訓練程度的提升,每個模型相較於前一個都顯著增強。其中最新的模型是GPT-4o,於2024年5月發布。這些模型為更具任務特定性的GPT系統奠定了基礎,包括經過微調以適應特定指令的模型——而這些又反過來為ChatGPT聊天機器人服務提供了支持[2] 。
術語「GPT」還用於命名和描述其他開發者所開發的模型。例如,其他GPT基礎模型包括EleutherAI(英語:EleutherAI)開發的一系列模型[12],以及Cerebras(英語:Cerebras)開發的七個模型[13]。此外,不同行業的公司還在其各自領域開發了執行特定任務的GPT,例如賽富時的「EinsteinGPT」(用於客戶關係管理)[14]和彭博的「BloombergGPT」(用於金融領域)[15]。