BigScience 大規模開放科學與多語言開放存取模型BLOOM[1][2] 是一個基於Transformer模型的自回歸大型語言模型(LLM),具有1760億個參數。該模型與其程式碼基礎,以及訓練所用的數據,均以自由許可證形式發布。[3] BLOOM於2022年3月至7月間,使用約3660億(1.6TB)個語料進行訓練。[4][5]

BLOOM是BigScience合作計畫的主要成果,[6]該計畫是一個為期一年的研究工作坊,自2021年5月開始,至2022年5月結束。BigScience由HuggingFace領導,並涉及來自法國及其他國家數百名代表學術界和私營部門的研究人員與工程師。BigScience得到了法國公眾超級計算機Jean Zay的大規模公眾計算資源的支持,該計算機由GENCI法國國家科學研究中心(IDRIS)管理,並在其上進行訓練。

BLOOM的訓練語料庫名為ROOTS,它結合了來自當時最新版本網絡基礎OSCAR語料庫的數據(佔ROOTS的38%),以及從人工挑選和記錄的語言數據來源清單中收集的新數據。該語料庫涵蓋了46種自然語言(語料佔比從英語的30%到Chi Tumbuka語的0.00002%不等)以及13種程式語言。[7]

參考資料

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.