大型语言模型

大型語言模型（英語：large language model，LLM），也稱大語言模型，簡稱大模型，是一種基於類神經網絡的語言模型。其名稱中的「大型」指模型具有龐大的參數量（通常在數十億至數萬億級別，如GPT-3含1750億參數）以及巨大的訓練數據規模。大語言模型通常採用自監督機器學習方法，從而能夠基於海量無標註的文字進行訓練。大語言模型專為自然語言處理任務而設計，尤其適用於語言生成。^[1]^[2]其中包含Gemini和GPT-4o在內的部分多模態大模型能夠同時處理文字、圖片、音頻和影片等不同輸入形式。規模最大、功能最強大的LLM基本採用生成式預訓練 Transformer (GPT) 模型，它們為ChatGPT、Gemini、Perplexity和Claude等聊天機械人提供了核心功能。這些模型能夠預測人類語言語料庫中原生的句法、語意和本體資訊^[3]，且展示出相當多訓練期間「記住」的關於世界的常識。但它們也繼承了訓練數據中存在的誤差和偏差。^[4]

此條目可參照英語維基百科相應條目來擴充。

由於LLM強大的記憶和泛化能力，其通常能夠作為通用模型被使用：即使在沒有針對特定任務（例如情感分析、命名實體辨識、文字翻譯、摘要生成或數學推理）進行訓練的情況下，LLM往往也能夠在這些任務中表現出色。 ^[4]而這些功能以往通常需要客製化系統才能實現。^[5] 此外，基於其跨任務泛化能力，也可以針對特定任務對LLM進行微調，或通過提示工程進行引導，^[6]從而在極少量特定任務數據下實現或增強特定功能，如對話代理、代碼生成、知識檢索和自動推理等功能。

LLM源於早期的統計神經網絡和循環神經網絡方法。2017年推出的Transformer架構用自注意力機製取代了循環，從而實現了高效的並列化、更長的上下文處理能力以及在前所未有的數據量上進行可延伸的訓練。 ^[7]這項創新催生了GPT、BERT及其後續模型，這些模型展現出了大規模湧現行為，例如少樣本學習和組合推理。^[8]

Remove ads

歷史

20世紀90年代，IBM對齊模型（英語：IBM alignment models）開創了統計語言建模。2001年，一個基於3億個單詞進行訓練的平滑n-gram模型達到了當時最佳的困惑度。^[9] 在21世紀，隨着互聯網的普及，一些研究人員構建了互聯網規模的語言數據集（「網絡語料庫」^[10]），並在此基礎上訓練統計語言模型。^[11]^[12] 2009 年，在大多數語言處理任務中，統計語言模型優於符號語言模型，因為它們可以有效地消化大型數據集。^[13]

在 2012 年左右神經網絡在圖像處理領域佔據主導地位後^[14]，它們也被應用於語言建模。谷歌於 2016 年將其翻譯服務轉換為神經機器翻譯。就像在Transformer架構出現之前的語言模型一樣，它由seq2seq深度LSTM網絡完成。

在 2017 年 NeurIPS 會議上，谷歌研究人員在他們的里程碑式論文《Attention Is All You Need》中介紹了Transformer架構。這篇論文的目標是改進 2014 年的 seq2seq 技術，^[7] 並且主要基於 Bahdanau 等人在 2014 年開發的注意力機制。^[15]2018 年，BERT被引入後迅速變得「無處不在」。^[16]雖然原始的 Transformer 同時具有編碼器和解碼器塊，但 BERT 是一個僅編碼器的模型。隨着僅解碼器模型（如 GPT）通過提示解決任務的能力迅速提高，BERT 在學術和研究中的使用率在 2023 年開始下降。^[17]

僅解碼器模型GPT-1於2018年推出，但2019年推出的GPT-2才引起了廣泛關注，因為OpenAI最初認為它過於強大，無法公開發布，因為擔心被惡意使用。^[18] 2020 年的GPT-3則更進一步，自2024年起僅通過API提供，不提供下載模型以在本地執行。2022 年面向消費者的基於瀏覽器的 ChatGPT 吸引了普通民眾的想像力，並引起了一些媒體炒作和線上熱議。^[19] 2023年的GPT-4因其準確性的提高而受到稱讚，並因其多模態功能而被稱為「聖杯」。^[20] OpenAI沒有透露GPT-4的進階架構和參數數量。ChatGPT的發布導致電腦科學的幾個研究子領域的LLM使用率上升，包括機械人技術、軟件工程和一些有社會影響的工作。^[21]與其競爭的語言模型在很大程度上試圖與GPT系列相提並論，至少在參數數量方面是這樣。^[22]

自2022年以來，開源模型越來越受歡迎，尤其是最初的BLOOM和LLaMA，儘管兩者在使用領域都有限制。Mistral AI的模型Mistral 7B和Mixtral 8x7b擁有更寬鬆的Apache許可證。截至2024年6月，根據LMSYS Chatbot Arena排行榜，Llama 3的700億參數模型的指令微調變體是最強大的開放LLM，強於GPT-3.5但不如GPT-4。^[23] 2025年1月，DeepSeek發布了 DeepSeek-R1，這是一個擁有6710億個參數的開放權重模型，其效能與OpenAI o1相當，但成本卻低得多。^[24]

自2023年以來，許多LLM已被訓練為多模態，能夠處理或生成其他類型的數據，例如圖像或音頻。這些LLM也稱為大型多模態模型 (LMM)。^[25]

截至2024年，最大、功能最強大的模型均基於Transformer架構。最近的一些實現基於其他架構，例如循環神經網絡變體和Mamba（狀態空間模型）。^[26]^[27]^[28]

自2023年以來，開放權重的大語言模型已日益成為人工智能領域的重要組成部分，有助於更廣泛地參與人工智能開發，並提高模型評估的透明度。Vake 等人 (2025) 的研究表明，社區驅動的開放權重模型貢獻能夠顯著提高其效率和效能，用戶參與度在Hugging Face等協同運作平台上迅速增長。^[29] Paris 等人 (2025) 進一步指出，人工智能的開放性不應僅限於發布模型代碼或權重，還應涵蓋人工智能研究和部署中的包容性、問責制和倫理責任。^[30] 總而言之，這些研究強調，開放權重邏輯模型能夠加速創新，增強科學可重複性，同時促進人工智能生態系統的透明化和參與性。

Remove ads

數據集預處理

詞元化

由於機器學習演算法處理的是數字而不是文字，因此必須將文字轉換為數字表示的詞元（token）。該過程稱為詞元化（tokenization），是數據預處理中的一個關鍵步驟。^[31]

詞元化首先需要確定一個詞彙表，然後為每個詞彙表條目任意但唯一地分配整數索引，最後將嵌入與整數索引關聯。確定詞彙表的演算法包括位元組對編碼（BPE）和WordPiece（BERT）。不同的演算法下，平均每個單詞需要的詞元個數也有所不同。該資訊也取決於數據集的語言等因素。由於每個詞元可以表示多個字元的，標記器還能夠壓縮數據集。^[32]^[33]

詞匯表中，通常會設計一些特殊詞元用作控制字元，例如 [MASK] 表示遮罩標記（如 BERT 中使用的），[UNK]（「未知」）表示未出現在詞彙表中的字元。此外，一些特殊符號用於表示特殊的文字格式。例如，「Ġ」表示 RoBERTa 和 GPT 中的前一個空格。「##」表示 BERT 中前一個單詞的延續。^[34]

例如，GPT-3（舊版）使用的 BPE 標記器會將標記器：tokenizer: texts -> series of numerical "tokens"拆分為

token

izer

texts

series

numerical

ens

由於 LLM 通常要求輸入是一個整齊的高維陣列，因此當並行地使用多個文字進行訓練時，必須先「填充」較短的文字（padding），直到它們與最長文字的長度匹配。

位元組對編碼

作為範例，考慮基於位元組對編碼的標記器。在第一步中，所有唯一字元（包括空格和標點符號）都被視為一組初始的 n-gram（即一組初始的 uni-gram）。隨後，最常見的一對相鄰字元合併為一個二元組，並用它替換該對的所有實例。然後，將最常一起出現的相鄰對（先前合併的）n-gram 再次合併為更長的 n-gram，直到獲得規定大小的詞彙表（對於 GPT-3，大小為 50257）。^[35] 訓練標記器後，任何文字都可以被它標記，只要它不包含未出現在初始 uni-gram 集中的字元。^[36]

問題

基於從主要英語語料庫中提取的頻率的標記詞彙表對一個普通英語單詞使用儘可能少的標記。然而，由這種針對英語最佳化的標記器編碼的另一種語言的普通單詞被分成次優數量的標記。對於某些語言，例如緬甸撣語，GPT-2 標記器每個單詞最多可以使用 15 倍的標記。與英語相比，葡萄牙語和德語等更廣泛使用的語言也「溢價 50%」。^[37]

貪心標記化還會導致文字補全出現微妙的問題。^[38]

資料淨化

在訓練 LLM 的背景下，數據集通常通過刪除低質素、重複或有害數據來清理。^[39] 清理後的數據集可以提高訓練效率並提高下游效能。^[40]^[41]訓練過的 LLM 可用於清理數據集以訓練進一步的 LLM。^[42]

隨着網絡上 LLM 生成內容的比例不斷增加，未來的數據清理可能包括過濾掉此類內容。如果內容與人類文字相似（使過濾變得困難）但質素較低（降低在其上訓練的模型的效能），則 LLM 生成的內容可能會帶來問題。^[43]

合成數據

訓練最大的語言模型可能需要比自然可用的更多的語言數據，或者自然發生的數據質素不夠。在這些情況下，可能會使用合成數據。微軟的 Phi 系列LLM採用另一LLM生成的類似教科書的數據進行訓練。^[44]

架構

注意力機制和上下文窗口

為了找出上下文窗口範圍內哪些 token 彼此相關，注意力機制會使用多個注意力頭為每個 token（更準確地說是其嵌入）計算「軟」權重，每個注意力頭都有自己的「相關性」來計算自己的軟權重。例如，小型（即 1.17億參數大小）GPT-2 模型有 12 個注意力頭和一個只有 1000 個 token 的上下文窗口。^[46] 在其中等版本中，它有 3.45 億個參數，包含 24 層，每層有 12 個注意力頭。對於梯度下降的訓練，使用的批次處理大小為 512。^[47]

最大的模型，例如 2024 年 2 月推出的 Google Gemini 1.5，可以有一個大小高達 100 萬的上下文窗口（1000 萬的上下文窗口也「成功測試」）。^[48] 其他具有大上下文窗口的模型包括 Anthropic 的 Claude 2.1，其上下文窗口最多有 20 萬個 token。^[49] 請注意，此最大值指的是輸入 token 的數量，輸出 token 的最大數量與輸入不同，並且通常較小。例如，GPT-4 Turbo 模型的最大輸出為 4096 個 token。^[50]

模型在生成下一個答案時可以考慮的對話長度也受到上下文窗口大小的限制。如果對話的長度（例如與 ChatGPT 的對話）長於其上下文窗口，則在生成下一個答案時只會考慮上下文窗口內的部分，或者模型需要應用某種演算法來總結對話中太遠的部分。

使上下文窗口變大的缺點包括計算成本更高，並且可能削弱對局部上下文的關注，而使上下文窗口變小可能會導致模型錯過重要的長距離依賴關係。平衡它們是一個實驗和特定領域的考慮問題。

模型可以預先訓練，以預測片段如何繼續，或者在給定訓練數據集中的片段的情況下預測片段中缺少什麼。^[51] 它可以是

自回歸的（即預測片段如何繼續，就像 GPT 所做的那樣）：例如，給定一個片段「我喜歡吃」，模型會預測「雪糕」或「壽司」。
填空式的（即填充片段中缺失的部分，就像「BERT」^[52] 所做的那樣）：例如，給定一個片段「我喜歡 [__] [__] 淇淋」，模型會預測「吃」和「冰」作為缺失的內容。

模型可以在輔助任務上進行訓練，以測試它們對數據分布的理解，例如下一句預測 (NSP)，其中呈現成對的句子，模型必須預測它們是否連續出現在訓練語料庫中。^[53] 在訓練期間，正則化損失也用於穩定訓練。然而，正則化損失通常不用於測試和評估。

混合專家模型

最大的 LLM 可能過於昂貴，無法直接訓練和使用。對於此類模型，可以應用專家混合 (MoE)，這是谷歌研究人員自 2017 年以來一直進行的研究方向，用於訓練多達 1 萬億個參數的模型。^[54]^[55]

參數數量

通常，LLM 使用單精度或半精度浮點數（float32和float16）進行訓練。一個float16值有16位元，即2位元組，因此10億個參數需要2 GB的空間。最大的模型通常擁有超過1000億個參數，這超出了大多數消費電子產品的容量範圍。^[56]

量化

訓練後量化^[57]旨在通過降低已訓練模型參數的精度來減少空間需求，同時儘可能保留其效能。量化可以進一步分為靜態量化和動態量化。靜態量化是指量化參數預先確定（通常在校準階段），而動態量化是指在推理過程中應用量化。最簡單的量化形式是將所有參數截斷為給定的位元數：這適用於靜態量化和動態量化，但會損失大量精度。動態量化允許每層使用不同的量化碼本，可以是值尋找表或線性對映（縮放因子和偏置），但代價是放棄了使用低精度運算可能帶來的速度提升。

量化後的模型通常被視為已凍結，權重修改（例如微調）僅應用於原始模型。可以使用低秩自適應（low-rank adaptation, LoRA）來微調量化後的模型。^[58]

擴充性

提示工程

以前大多數只能通過（昂貴的）微調才能實現的結果，都可以通過提示工程（prompt engineering）實現，儘管僅限於單個對話的範圍（更準確地說，僅限於上下文窗口（context window）的範圍）。^[59]

指令調優

指令調優（Instruction Tuning）是一種微調技術，通過在包含（指令，輸出）對的數據集上以監督學習方式進一步訓練大型語言模型，使其更好地理解和執行人類指令。這種方法彌合了大型語言模型的下一個詞預測目標與用戶希望模型遵循人類指令之間的差距^[60]。

檢索增強生成

檢索增強生成（RAG）是一種通過將LLM與文件檢索系統整合來增強其效能的方法。給定一個查詢，呼叫文件檢索器來檢索最相關的文件。這通常是通過將查詢和文件編碼成向量來實現的，然後找到向量（通常儲存在向量資料庫中）與查詢向量最相似的文件。之後，LLM 基於查詢和從檢索到的文件中包含的上下文生成輸出。^[61]^[62]

基於人類反饋的強化學習

近端策略最佳化等基於人類反饋的強化學習演算法被廣泛用於進一步微調一個大語言模型^[63]。

推理模型

2024 年末，LLM 開發出現了一個新方向，即專門為複雜推理任務設計的模型。這些「推理模型」經過訓練，在提供最終答案之前會花費更多時間生成分步解決方案，類似於人類解決問題的過程。^[64] OpenAI 於 2024年9月通過其 o1 模型引入了這一趨勢，隨後於2024年12月推出了o3。與傳統 LLM 相比，這些模型在數學、科學和編碼任務方面表現出顯着的改進。例如，在國際數學奧林匹克資格考試問題上，GPT-4o的準確率達到 13%，而o1的準確率達到 83%。^[65]^[66] 2025 年 1 月，中國公司深度求索（DeepSeek）發布了DeepSeek-R1，這是一個 6710億參數的開放權重推理模型，其效能與 OpenAI 的 o1 相當，但執行成本明顯更高。與 OpenAI 的專有模型不同，DeepSeek-R1 的開放權重特性允許研究人員研究和構建演算法，但其訓練數據仍保持私密。^[67] 與傳統的 LLM 相比，這些推理模型通常需要每個查詢更多的計算資源，因為它們執行更廣泛的處理來逐步解決問題。然而，它們在需要結構化邏輯思維的領域表現出了卓越的能力，例如數學、科學研究和電腦編程。^[68]

訓練成本

「大型語言模型」中的限定詞「大型」本質上是模糊的，因為沒有明確的閾值來定義「大型」所需的參數數量。隨着時間的推移，以前被認為是「大型」的東西可能會演變。2018 年的 GPT-1 通常被認為是第一個 LLM，儘管它只有 1.17 億個參數。在大型語言模型列表中可以看到向大型模型發展的趨勢。

自 2020 年以來，軟件和硬件的進步大大降低了成本，以至於在 2023 年，訓練一個 120 億參數的 LLM 的計算成本為 72,300 A100-GPU 小時，而在 2020 年，訓練一個 15 億參數的 LLM（比 2020 年最先進的 LLM 小兩個數量級）的成本在 80,000 美元到 1,600,000 美元之間。^[69]^[70]^[71]自 2020 年以來，大量資金投入到越來越大的模型中。例如，2019 年訓練 GPT-2（即 15 億個參數的模型）花費了 5 萬美元，而 2022 年訓練 PaLM（即 5400 億個參數的模型）花費了 800 萬美元，而 Megatron-Turing NLG 530B（2021 年）花費了約 1100 萬美元。^[72]

對於基於 Transformer 的 LLM，訓練成本遠高於推理成本。訓練一個 token 需要每個參數 6 次 FLOP，而推理一個 token 需要每個參數 1 到 2 次 FLOP。^[73]

輸入輸出形式

多模態模型

多模態模型（英語：Large Multimodal Model，LMM），意味着「具有多種模態」，而「模態」是指一種輸入或輸出類型，例如影片、圖像、音頻、文字、本體感受等。^[74] 已經有許多專門訓練過的 AI 模型來攝取一種模態並輸出另一種模態，例如用於圖像到標籤的 AlexNet^[75]、用於圖像文字到文字的視覺問答^[76]、以及用於語音到文字的語音辨識。

從 LLM 建立多模態模型的常用方法是「標記」經過訓練的編碼器的輸出。具體來說，可以構建一個可以理解圖像的 LLM，如下所示：採用經過訓練的 LLM，並採用經過訓練的圖像編碼器 $E$ 。製作一個小的多層感知器 $f$ 這樣對於任何圖像 $y$ ，後處理向量 $f(E(y))$ 具有與編碼標記相同的尺寸。這是一個「圖像標記」。然後，可以交錯文字標記和圖像標記。然後在圖像文字數據集上對複合模型進行微調。可以更複雜地應用這種基本構造來改進模型。可以凍結圖像編碼器以提高穩定性。^[77]

Flamingo 證明了標記化方法的有效性，對一對預訓練的語言模型和圖像編碼器進行了微調，使其在視覺問答方面的表現優於從頭開始訓練的模型。^[78] 使用標記化方法將 Google PaLM 模型微調為多模態模型 PaLM-E，並應用於機械人控制。[6] LLaMA 模型也已使用標記化方法轉變為多模態，以允許圖像輸入^[79] 和視頻輸入。^[80]

GPT-4 可以使用文字和圖像作為輸入^[81]（儘管視覺組件直到 GPT-4V^[82]] 才向公眾發布）；Google DeepMind 的 Gemini 也是多模態的。^[83] Mistral 於 2024 年 9 月推出了自己的多型號 Pixtral 12B。^[84]

非自然語言

LLM處理程式語言的方式與處理自然語言的方式類似。由於代碼和人類語言一樣，都是以純文字形式表示的，因此無需對詞法單元的處理方式進行特殊更改。LLM可以根據用自然語言編寫的問題或指令生成代碼。它們還可以用自然語言描述代碼，或將其翻譯成其他程式語言。LLM最初被用作代碼補全工具，但隨着技術的進步，它們已發展成為自動編程工具。諸如GitHub Copilot之類的服務提供經過專門訓練、微調或提示的LLM，用於編程。

偏差和局限性

大語言模型偏差和局限性是自然語言處理（NLP）領域正在進行的研究。雖然ChatGPT等大語言模型在生成類人文字方面表現出了卓越的能力，但它們很容易繼承和放大訓練數據中存在的偏見。這可能表現為對不同人口統計數據的歪曲表述或不公平待遇，例如基於種族^[85]、性別^[86]、語言^[87]和文化群體^[87]的不同觀點與態度。此外，這些模型通常面臨事實準確性的限制。研究和緩解這些偏見和限制對於人工智能在不同社會和專業領域的道德發展和應用至關重要。

技術取精靈致局限

機器學習和人工智能方面的專家楊立昆在GTC2025上的「爐邊對話」環節提出觀點，認為僅僅依靠語言和文字訓練出來的 AI 系統，永遠無法逼近人類的理解力^[88]。他也提到了世界模型（World Models）這一概念。他認為，學術界開發AI系統需要基於不同於當前token預測架構的新路徑。其中一個原因是：Token具有離散的性質。「在典型的NLP任務中，token的選擇範圍通常在幾千個左右。因此當你訓練一個系統去預測下一個token，它並不能精確地預測出確切的token，而是只能基於字典中的所有可能選項生成一個概率分布。」楊利昆描述到。他又說，現實世界中人類面對的是高維、連續的數據。現在的有些AI通過像素精度的影片進行（行為或者規則）的預測，這種方法在構建認知模型方面的效果卻欠佳。^[89]

幻覺

幻覺指的是大語言模型輸出與客觀事實不符或具有誤導性的內容，其可能由模型本身或用戶引導產生。^[90]

偏差

語言偏差

語言偏差是指與語言相關的一種統計抽樣偏差，也就是說在資訊抽樣中，查詢語言導致的系統偏差會使其無法準確呈現數據中的各種不同主題和觀點。當前的大型語言模型主要是根據英語數據進行訓練的，因此通常將英語觀點視為真實可靠的觀點，而系統地將非英語觀點視為不相關、錯誤或噪音。當被問到諸如「什麼是自由主義？」之類的政治意識形態的問題時，ChatGPT以英美角度為中心，而對例如說越南的「反對國家干預個人和經濟生活」與中國的「限制政府權力」等視而不見。同樣，回覆中也沒有日本、韓國、法國和德國語料庫中的主流政治觀點。^[87]

性別偏差

性別偏差是指這些模型產生的結果傾向於對一種性別產生不公平的偏見。這種偏差通常源於訓練這些模型的數據。例如，大型語言模型通常根據傳統的性別規範來分配角色和特徵；它可能會將護士或秘書主要與女性聯絡起來，將工程師或行政總裁與男性聯絡起來。^[85]^[91]

政治偏差

政治偏差是指演算法系統地傾向於某些政治觀點、意識形態或結果，也可能表現出政治偏見。由於訓練數據包含廣泛的政治觀點和覆蓋範圍，因此模型可能會生成傾向於特定政治意識形態或觀點的響應，具體取決於數據中這些觀點的普遍程度。^[92]

文化偏差

文化偏見是指大語言模型對特定的文化實踐、信仰或傳統持有偏見，由於受到訓練數據中文化資訊的不均衡、誤導性或歧視性影響。例如，若模型的訓練數據中某種文化的觀點被過度代表，模型就繼承這種偏差形成一定的偏見。^[93]

地域偏差

地域偏差是指大語言模型根據地理位置或國籍對人們的行為、習慣或特徵做出偏見性的假設。這種偏差可能導致對特定地區的知識、成就、問題、潛力等方面的誤解、低估或過度放大。^[94]

年齡偏差

年齡偏差是指大語言模型在處理或生成與年齡相關的話題時，根據年齡做出刻板印象化的假設，例如認為年長者不懂技術或年輕人缺乏責任感。^[95]

職業偏差

職業偏差是指大語言模型對特定職業持有刻板印象，將某些職業視為比其他職業更有價值或重要，或對特定職業的人群做出性格或能力上的假設。^[96]

參見

外部連結

Open LLM Leaderboard（開放LLM排行榜旨在跟蹤、排名和評估開放LLM和聊天機械人）（頁面存檔備份，存於互聯網檔案館）

參考資料

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads