對齊研究中心(英語:Alignment Research Center, ARC)是美國的非營利研究機構,致力將人工智能的行為對齊人類的價值觀和預期利益。[1]對齊研究中心由美國人工智能研究實驗室OpenAI前研究員保羅·克里斯蒂亞諾英語Paul Christiano (researcher)創立,專注於識別和理解AI模型的潛在危害。[2][3]

Quick Facts 成立時間, 創始人 ...
對齊研究中心
Alignment Research Center
成立時間2021年4月 (2021-04)
創始人保羅·克里斯蒂亞諾英語Paul Christiano (researcher)
貝絲·巴恩斯(Beth Barnes)
Mark Xu
類型非營利研究機構
法律地位501(c)(3)免稅公益組織
總部 美國加利福尼亞州柏克萊
目標人工智能對齊安全性研究英語AI safety
網站alignment.org
Close

概述

對齊研究中心的使命是確保未來的機器學習系統能夠安全地設計和開發,並造福人類。研究中心由保羅·克里斯蒂亞諾英語Paul Christiano (researcher)和其他研究人員於2021年4月創立,主要研究對人工智能對齊相關理論的挑戰[4],理論的一關鍵在於當人工智能系統變得愈加先進時,其設計者人類開發的對齊技術可能因此被規避或發現漏洞。[5]對齊研究中心亦嘗試從理論工作提升至實證研究、相關產業的合作和政策制定。[6][7]

2022年3月,對齊研究中心自開放慈善計劃英語Open Philanthropy獲得26.5 萬美元。[8]同年,加密貨幣交易平台FTX宣佈破產,對齊研究中心表示將歸還其創始人山姆·班克曼-弗里德的FTX基金會(FTX Foundation)所提供的125萬美元捐款。[9]

2023年3月,美國人工智能研究實驗室OpenAI請求對齊研究中心協助測試其開發的語言模型GPT-4,評估該模型對權力追求行為的能力和潛在風險。[10]對齊研究中心評估GPT-4在策略制定、自我複製、資源獲取、伺服器隱匿和網絡釣魚操作的能力[11]。此外,驗證碼問題的解答也是測試的一部分[12],而GPT-4透過零工求職平台TaskRabbit英語TaskRabbit僱用人類為其完成這項工作,並在身份遭到懷疑時欺騙受僱者相信僱主(GPT-4)是名視力受損的人類而非機械人。[13]對齊研究中心確認GPT-4對誘發受限訊息的提示做出不允許反應的概率較GPT-3.5低82%,產生人工智能幻覺的概率較其低60%。[14]

參考資料

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.