基礎模型(英語:foundation modelbase model)指一類大型機器學習模型[1],它們經大規模數據訓練而成(通常以自監督學習半監督學習方式進行)[2],以適應各種下游任務[3][4]。基礎模型幫助實現了人工智能系統構建方式的重大革新,例如為聊天機械人和其他面向用戶的人工智能提供支持。斯坦福人類中心人工智能研究所(Stanford Institute for Human-Centered Artificial Intelligence)旗下的基礎模型研究中心(Center for Research on Foundation Models,簡稱CRFM)推廣了「基礎模型」這一術語的使用。[3]

早期的基礎模型包括一些預訓練語言模型,比如Google開發的BERT和各種早期的GPT基礎模型,特別是OpenAI的「GPT-n」系列模型。這類用途廣泛的模型可以通過進一步開發以適用於特定的任務或領域。[5]

除文本模型外,還先後誕生了各種視覺或多模式的基礎模型,如DALL-E、Flamingo[6]、Florence和NOOR[7]等。視覺基礎模型(visual foundation model,簡稱VFM)已與基於文本的大型語言模型相結合以構建適應特定任務的複雜模型。[8]此外,還有Meta AI開發的用於通用圖像分割的Segment Anything[9]以及Google DeepMind開發的強化學習智能體Gato英語Gato (DeepMind)等。[10] [11]

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.