对齐研究中心(英语:Alignment Research Center, ARC)是美国的非营利研究机构,致力将人工智能的行为对齐人类的价值观和预期利益。[1]对齐研究中心由美国人工智能研究实验室OpenAI前研究员保罗·克里斯蒂亚诺创立,专注于识别和理解AI模型的潜在危害。[2][3]
概述
对齐研究中心的使命是确保未来的机器学习系统能够安全地设计和开发,并造福人类。研究中心由保罗·克里斯蒂亚诺和其他研究人员于2021年4月创立,主要研究对人工智能对齐相关理论的挑战[4],理论的一关键在于当人工智能系统变得愈加先进时,其设计者人类开发的对齐技术可能因此被规避或发现漏洞。[5]对齐研究中心亦尝试从理论工作提升至实证研究、相关产业的合作和政策制定。[6][7]
2022年3月,对齐研究中心自开放慈善项目获得26.5 万美元。[8]同年,加密货币交易平台FTX宣布破产,对齐研究中心表示将归还其创始人山姆·班克曼-弗里德的FTX基金会(FTX Foundation)所提供的125万美元捐款。[9]
2023年3月,美国人工智能研究实验室OpenAI请求对齐研究中心协助测试其开发的语言模型GPT-4,评估该模型对权力追求行为的能力和潜在风险。[10]对齐研究中心评估GPT-4在策略制定、自我复制、资源获取、服务器隐匿和网络钓鱼操作的能力[11]。此外,验证码问题的解答也是测试的一部分[12],而GPT-4透过零工求职平台TaskRabbit雇用人类为其完成这项工作,并在身份遭到怀疑时欺骗受雇者相信雇主(GPT-4)是名视力受损的人类而非机器人。[13]对齐研究中心确认GPT-4对诱发受限消息的提示做出不允许反应的几率较GPT-3.5低82%,产生人工智能幻觉的几率较其低60%。[14]
参考资料
外部链接
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.