LLaMA(英語:Large Language Model Meta AI)是Meta AI公司於2023年2月發佈的大型語言模型。它訓練了各種模型,這些模型的參數從70億到650億不等。LLaMA的開發人員報告說,LLaMA運行的130億參數模型在大多數NLP基準測試中的性能超過了更大的、具有1750億參數的GPT-3提供的模型,且LLaMA的模型可以與PaLMChinchilla等最先進的模型競爭[3]。雖然其他強大的大語言模型通常只能通過有限的API訪問,但Meta在非商業許可的情況下發佈了LLaMA的模型權重,供研究人員參考和使用[4][5] [6]。2023年7月,Meta推出LLaMA2,這是一種可用於商業應用的開源AI模型[7]

Quick Facts 開發者, 首次發佈 ...
Llama
開發者Meta AI英語Meta AI
首次發佈2023年2月24日,​19個月前​(2023-02-24
當前版本
  • 3.2(2024年9月25日;穩定版本)[1]
編輯維基數據鏈接
原始碼庫github.com/meta-llama/llama3
程式語言Python
類型
許可協議Meta Llama 3.2 Community License[2]
網站llama.meta.com
Close

LLaMA2

2023年7月,Facebook母公司Meta推出了LLaMA2,LLaMA2是一種開源大語言模型(LLM),旨在挑戰大型科技競爭對手的限制性做法。Meta免費發佈LLaMA2背後的代碼和數據,使世界各地的研究人員能夠利用和改進該技術。 Meta的行政總裁馬克·扎克伯格一直直言不諱地強調開源軟件對於刺激創新的重要性。[8][7]

Meta訓練並發佈了三種模型大小的LLaMA2:70、130和700億個參數。模型架構與LLaMA1模型基本保持不變,但用於訓練基礎模型的數據增加了 40%。隨附的預印本還提到了一個具有34B參數的模型,該模型可能在未來滿足安全目標後發佈。

LLaMA2包括基礎模型和針對對話進行微調的模型,稱為 Llama 2 - 聊天。與LLaMA1進一步不同的是,所有模型都附帶權重,並且對於許多商業用例都是免費的。然而,由於一些剩餘的限制,Llama開源的描述受到了開源倡議組織(以維護開源定義而聞名)的爭議。[9]

Code Llama

2023年8月,Meta繼發佈用於生成文本、翻譯語言和創建音頻的人工智能模型之後,開源了 Code Llama。這是一個機器學習系統,可以用自然語言(特別是英語)生成和解釋代碼。 可以免費商用和研究。[10]

Code Llama是從Llama-2基礎模型微調而來,共有三個版本:基礎版、Python版、以及指令遵循。 類似於 GitHub Copilot 和 Amazon CodeWhisperer,以及 StarCoder、StableCode 和 PolyCoder 等開源人工智能代碼生成器,Code Llama 可以跨多種程式語言完成代碼並調試現有代碼,包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。[11]

在訓練 Code Llama 時,Meta 使用了與訓練 Llama 2 相同的數據集——來自網絡的公開可用資源的混合。但可以說,它的模型「強調」了包含代碼的訓練數據的子集。從本質上講,Code Llama 比它的「父」模型 Llama 2 有更多的時間來學習代碼和自然語言之間的關係。每個 Code Llama 模型的大小從 70 億個參數到 340 億個參數不等,均使用 5000 億個代碼標記以及與代碼相關的數據進行訓練。多個 Code Llama 模型可以將代碼插入到現有代碼中,並且所有模型都可以接受大約 100,000 個代碼標記作為輸入,而至少一個(70 億個參數模型)可以在單個 GPU 上運行。(其他模型則需要更強大的硬件。)Meta 聲稱,340 億個參數的模型是迄今為止所有開原始碼生成器中性能最好的,也是參數數量最多的。[11]

Llama 3

2024年4月18日,Meta發佈了Llama-3,有兩種模型大小尺寸:8B和70B參數。 [12] 這些模型已經根據從「公開可用來源」收集的大約 15 萬億個文本標記進行了預訓練,並且指導模型根據「公開可用的指令數據集以及超過 1000 萬個人工註釋的示例」進行了微調。 計劃發佈多模式模型、能夠以多種語言進行對話的模型以及具有更大上下文窗口的模型。

於2024年7月23日增量更新至Llama-3.1。具有8B、70B、405B參數三種模型大小尺寸。[12]

Meta AI 的測試表明,Llama 3 70B 在大多數基準測試中都擊敗了 GeminiClaude[13][14]

模型比較

對於訓練成本列,只寫出最大模型的成本。例如,「21,000」是 Llama 2 69B 的訓練成本,單位為 petaFLOP-day。另外,1 petaFLOP-day = 1 petaFLOP/秒 × 1 天 = 8.64E19 FLOP。

More information 名稱, 發佈日期 ...
名稱 發佈日期 參數 訓練成本 (petaFLOP-day) 上下文長度 語料庫大小 商業可行性?
LLaMA 2023-02-24
  • 6.7B
  • 13B
  • 32.5B
  • 65.2B
6,300[15] 2048 1–1.4T
Llama 2 2023-07-18
  • 6.7B
  • 13B
  • 69B
21,000[16] 4096 2T
Code Llama 2023-08-24
  • 6.7B
  • 13B
  • 33.7B
  • 69B
Llama 3 2024-04-18
  • 8B
  • 70.6B
100,000[17][18] 8192 15T
Llama 3.1 2024-07-23
  • 8B
  • 70.6B
  • 405B
440,000[19][20] 128,000
Llama 3.2 2024-09-25
  • 1B
  • 3B
  • 11B
  • 90B
128,000
Close

架構與訓練

數據集

2023年4月17日,GitHub的Together啟動了一個名為RedPajama的項目,以複製和分發LLaMA數據集的開源版本。[21][22]

反響

連線》 (Wired) 雜誌稱Llama 3的 8B 參數版本「能力出奇地強」,考慮到它的大小。[23]

Meta將Llama整合到Facebook後,人們的反應褒貶不一,一些用戶在Meta AI告訴家長群它有一個孩子後感到困惑。[24]

根據2023年第四季度的收益記錄,Meta採用了開放權重的策略來提高模型安全性、迭代速度,增加開發人員和研究人員的採用率,並成為行業標準。未來計劃推出 Llama 5、6 和 7。[25]

參見

參考資料

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.