中国浙江杭州的人工智能公司 来自维基百科,自由的百科全书
深度求索(DeepSeek),全称杭州深度求索人工智慧基础技术研究有限公司,是中华人民共和国的一家人工智慧与大型语言模型公司。该公司的总部位于中国大陆浙江省杭州市(注册地位于拱墅区),由中资对冲基金幻方量化创立,创始人和总执行长为梁文锋。
![]() DeepSeek标识 | |||
![]() DeepSeek应用主页 | |||
开发者 | 杭州深度求索人工智慧基础技术研究有限公司 | ||
---|---|---|---|
当前版本 |
| ||
操作系统 | Android、IOS、iPadOS | ||
语言 | 72种语言[2] | ||
语言列表 英语, 南非荷兰语, 阿尔巴尼亚语, 阿姆哈拉语, 阿拉伯语, 亚美尼亚语, 阿塞拜疆语, 巴斯克语, 白俄罗斯语, 孟加拉语, 保加利亚语, 缅甸语, 柬埔寨语, 加泰罗尼亚语, 克罗地亚语, 捷克语, 丹麦语, 荷兰语, 爱沙尼亚语, 菲律宾语, 芬兰语, 法语, 加利西亚语, 格鲁吉亚语, 德语, 希腊语, 古吉拉特语, 希伯来语, 印地语, 匈牙利语, 冰岛语, 印尼语, 意大利语, 日语, 卡纳达语, 哈萨克语, 韩语, 吉尔吉斯语, 寮语, 拉脱维亚语, 立陶宛语, 马其顿语, 马来语, 马拉雅拉姆语, 马拉地语, 蒙古语, 尼泊尔语, 挪威博克马尔语, 波斯语, 波兰语, 葡萄牙语, 旁遮普语, 瑞托-罗曼语, 罗马尼亚语, 俄语, 塞尔维亚语, 简体中文, 僧伽罗语, 斯洛伐克语, 斯洛文尼亚语, 西班牙语, 斯瓦希里语, 瑞典语, 淡米尔语, 泰卢固语, 泰语, 繁体中文, 土耳其语, 乌克兰语, 乌尔都语, 越南语, 祖鲁语 | |||
网站 | www![]() |
2025年1月10日,DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日,DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程式榜首[3],并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智慧[6]、打响了全球人工智慧领域竞赛的第一枪[7]、引领人工智慧下边缘政策新纪元[8]。
DeepSeek开源其生成式人工智慧算法、模型和训练细节,允许其代码可被免费地使用、修改、浏览和构建使用文档[9]。该公司据报积极地从中国顶尖高校吸引年轻的人工智慧研究者并招募电脑科学领域外的人以丰富其模型的认知和能力[10]。
同时,DeepSeek的崛起引发争议,既带来技术突破,也激起了围绕知识产权与数据来源、隐私与数据安全、算力成本与晶片依赖等问题的广泛讨论,加剧了中美AI竞赛的紧迫感。[11]
2023年7月17日,幻方量化成立了DeepSeek。
2023年10月28日,DeepSeek发布DeepSeek-Coder,这是深度求索的第一个大模型,11月29日,发布DeepSeek-LLM。
2023年12月15日,DeepSeek发布DreamCraft3D,是一个3D生成模型。
2024年1月11日,DeepSeek发布DeepSeek-MoE,性能超越Llama 2-7B,且计算量降低60%[12]。
2024年2月5日,DeepSeek发布DeepSeekMath,DeepSeekMath 在竞赛级MATH基准测试中获取了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。
2024年3月11日,DeepSeek发布DeepSeek-VL。
2024年5月,DeepSeek发布并开源[13]了旗下MoE大模型DeepSeek-V2,因其模型架构与经济性而脱颖而出,DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一[14][15]。
2024年6月17日,DeepSeek发布DeepSeek-Coder-V2[16],DeepSeek-Coder-V2在代码特定任务中达到了与GPT4-Turbo相当的性能。 DeepSeek-Coder-V2在程式设计和数学基准测试中表现优异,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。
2024年8月16日,DeepSeek同时发布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。
2024年9月5日,DeepSeek 宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat 两个模型,升级推出全新的 DeepSeek V2.5 新模型。
2024年11月20日,DeepSeek 发布 DeepSeek-R1-Lite,是深度求索第一个推理模型。[17]
2024年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2。同月26日,DeepSeek发布并开源[18]了DeepSeek-V3,DeepSeek表示该大模型的训练系基于2,048块英伟达H800型GPU(针对中国大陆市场的低配版GPU)集群上运行55天完成,训练耗资557.6万美元[19];DeepSeek-V3的评测成绩超越Qwen2.5-72B(阿里自研大模型)和LLaMA 3.1-405B(Meta自研大模型)等开源模型,能与GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等闭源模型相抗衡[14]。
2025年1月20日, DeepSeek发布并开源[20]了DeepSeek-R1模型,该模型在数学、代码、自然语言推理等任务上,性能与OpenAI o1正式版相当[21]。
2025年1月27日,DeepSeek智慧助手在美区苹果App Store下载榜上超越ChatGPT,并登顶App Store免费应用榜榜首。[22]
2025年1月27日,DeepSeek发布多模态大模型Janus-Pro。
2025年2月9日,DeepSeek宣布结束优惠体验期,调整后的API服务的输入tokens和输出tokens价格分别上涨100%和300%。[23]
2025年初,DeepSeek遭到网络攻击。攻击大约从1月3日开始,初期为DDoS攻击,在27、28日数量激增,并且伴随着暴力破解攻击,即破解用户的密码,获取用户资讯。受到网络攻击影响,许多用户无法登录、注册或者进行对话。[24][25][26]中国网络安全公司奇安信分析,暴力破解攻击的IP地址全都来自美国。[24]在受到网络攻击后,27日Deepseek限制新用户注册地为中国大陆境内的电话、电邮和谷歌登录服务。
1月28日,DeepSeek表示,为持续提供服务,暂时限制中国内地以外号码的注册。[27]
总部位于纽约的网络安全公司Wiz表示,他们发现了一个与DeepSeek相关的ClickHouse数据库,可以未经身份验证访问,意外地暴露了超过100万行的敏感数据。Wiz的总技术长表示,在给DeepSeek发出警报后,DeepSeek在一个小时内就保护了数据。[28]
DeepSeek爆火之后,中国大陆网络出现了很多针对DeepSeek在电商、自媒体、教育、编程等领域应用的培训课程,内容包括本地部署、提示语等,有些为免费,有些则须支付几十到上千元不等的费用,培训的质量参差不齐,用户褒贬不一,很多所谓培训被指在“贩卖焦虑”、“割韭菜”,之前ChatGPT大火时也有这种现象出现,引起了业内人士的警惕[29]。
2025年2月6日,DeepSeek针对网络上的仿冒账号和不实资讯发布公开声明,公示微信、小红书和X(原Twitter)官方账号,公示官网地址和官方APP资讯,表示从未设立除DeepSeek官方用户交流微信群以外的任何群组,一切收费行为均系假冒[30]。有网络安全实验室统计,2024年12月1日至2025年2月3日期间,共出现了2650个仿冒DeepSeek的域名,其中有60%的IP地址位于美国,其余主要分布在新加坡、德国、立陶宛、俄罗斯和中国。大规模的仿冒域名注册活动从2025年1月26日开始,并在1月28日达到高峰。这些仿冒域名主要用于钓鱼欺诈、域名抢注等非法用途[31]。
DeepSeek基于V3模型分别为安卓和iOS系统开发智慧助手。截止到2025年1月27日,该助手超过了ChatGPT成为美区iOS应用商店中最热门免费程序。据报,该助手在美国人工智慧公司常用的涵盖回答问题、解决逻辑问题、编写程序等基准测试中获取与其他聊天机器人不相上下的成绩[10]。
DeepSeek的以相对较小的成本却获得极具竞争力的性能则被认为可能足以挑战美国人工智慧领域模型优势地位。许多媒体将其描述为美国人工智慧领域的“史普尼克危机”[32][33]。其R1模型被认为在解决数学问题、编程、自然语言推理中能获取与OpenAI最新模型媲美的性能[34]。2025年1月26日,美国风险投资家马克·安德里森在X上发帖表示,DeepSeek的R1模型是人工智慧的“史普尼克时刻”(苏联发射人类史上第一颗人造卫星,导致西方焦虑,引发太空竞赛)。[35]
DeepSeek创始人梁文锋则被与OpenAI总执行长萨姆·奥尔特曼相比,CNN称梁为中国的奥尔特曼以及人工智慧的布道者[36]。
Meta首席AI科学家杨立昆在谈及DeepSeek的成功时指出,这充分证明了“开源模型正在超越专有模型。”他表示:“DeepSeek从开源研究和技术中受益匪浅,例如PyTorch和Llama。他们在他人工作的基础上提出了创新想法并加以构建。由于他们的工作是公开发布并完全开源的,所有人都可以从中获益。这正是开源研究与开源技术的强大之处。”[37]
美国总统特朗普表示,深度求索低价但不低质的AI带来的是积极的影响,因为这可以让硅谷企业可以以更低的成本进行创新,而且DeepSeek给美国行业敲响警钟,意味着美国企业需要全力以赴与中国企业进行竞争。[38]
参与美国政府支持的“星际之门计划”计划的公司领导人,诸如OpenAI总执行长萨姆·奥尔特曼、微软执行长纳德拉均表示DeepSeek-R1是一款令人印象深刻的模型,尤其是考虑到它能够以这个价格提供(这样的产品)。[39][40][41]。而Scale AI执行长亚历山大·王、Anthropic联合创始人兼执行长达里奥·阿莫迪、埃隆·马斯克则对Deepseek的能力或是Deepseek爆火的可持续性持怀疑态度[42][43][44]。其他公司,包括亚马逊云计算服务、丰田以及Stripe则将Deepseek用于其提供的服务程序中[45]。
DeepSeek能够在有限的资源下优化模型凸显出美国针对中国人工智慧领域发展的制裁(这些制裁包括了限制出口先进的人工智慧晶片到中国)的有限影响力[46][47]。该模型的成功导致了股市震荡,并造成全球主要的科技公司股票在2025年1月27日极速下跌:英伟达股票在下跌达17-18%,市值蒸发近6000亿美元,跌幅创下美国上市公司单日市值损失的纪录[48]。其他科技公司股票如微软下跌2.5%、谷歌母公司Alphabet下跌4%、荷兰光刻机制造商ASML下跌7%[49]。截止到2025年1月28日,美国上市科技企业总市值损失1万亿美元[33]。
DeepSeek不仅给海外竞争对手带来了压力,也对国内同行形成了竞争压力。1月29日,阿里巴巴集团发布了通义千问“Qwen 2.5”新版本,声称该模型已超越DeepSeek-V3,并在几乎所有方面领先于OpenAI的GPT-4o和Meta的Llama-3.1-405B。与此同时,TikTok母公司字节跳动也推出了其旗舰AI模型的更新,宣称其性能优于微软支持的OpenAI o1模型。[50]
2024年诺贝尔经济学奖得主、麻省理工学院经济学教授达龙·阿杰姆奥卢认为,DeepSeek目前只是“满足客户好奇心的玩具”,在企业应用层面还没有革命性的影响,但它的出现确实凸显硅谷在AI发展上出现了集体错觉。[51]
2024年诺贝尔化学奖得主、谷歌DeepMind总执行长杰米斯·哈萨比斯在2025年2月9日巴黎AI峰会(Paris AI Summit)上表示,DeepSeek人工智慧模型或许是他见过的最优秀的中国科技产品,具备极高的工程能力,并且在地缘政治层面带来了变化。但他补充说,大家都在围绕DeepSeek进行炒作而且有点夸大其词,该产品并未展示任何新的科学进展,它使用的都是已知的技术。[52]
DeepSeek引发美国国内对晶片出口管制政策的争论。务实派警告过度压制正在加速中国技术生态的独立进程,而强硬派主张将实体清单扩大至更多中国科技企业,并推动晶片禁令向中端产品延伸。1月29日,Anthropic总执行长达里奥·阿莫迪达里奥·阿莫迪发布长文,指出“认为技术越来越强大、性价比越来越高是解除出口管制的理由的想法是完全没有道理的”。[11]
半导体和人工智慧领域知名的行业研究机构SemiAnalysis分析显示,短期技术突破带来的算力消减论存在误判。从技术扩散规律看,推理成本下降将加速AI应用普及,进而推动算力需求呈指数级增长。端侧AI的规模化落地、多模态应用的爆发,以及企业私有化部署需求,都将持续推高全球算力消耗总量。[11]
据新浪财经2024年12月报道,早在2019年,幻方和它背后的资金,就开始大手笔投入于深度学习训练平台,到了2021年幻方量化对超算集群系统的投入增加到10亿元,并且搭载了超1万张英伟达A100显卡。这可能是中国内地当时拥有AI显卡最多的企业之一。[53]2022年,幻方量化在社交媒体上发帖称,在美国限制向中国出口英伟达晶片的几个月前,该公司已经积累了一批性能更强大的英伟达晶片。[54]
Scale AI的总执行长汪滔(Alexandr Wang)批评称DeepSeek和其他中国实验室训练时,已经获得了比他们透露的更多的NVIDIA H100晶片。他并声称:“据我了解,DeepSeek拥有大约50,000块H100晶片。显然,他们不能公开谈论这些,因为这违反了美国实施的出口管制规定。” [55]
美国官员调查DeepSeek是否为了规避美国出口管制,通过新加坡购买了英伟达的晶片。[56]英伟达称,DeepSeek的研究“完全符合出口管制规定”。[57]
深度求索在论文中公布,其DeepSeek-V3模型的训练成本为557.6万美元。对此,波士顿对冲基金Atreides Management的管理合伙人兼首席投资官加文·贝克(Gavin Baker)指出,这一数字是极具误导性的,因为前期研究可能已经投入了数亿美元成本。[58]
美国国防科技公司Anduril Industries创办人“硅谷奥本海默”Oculus创办人拉奇认为,媒体铺天盖地引述DeepSeek说法,批评美媒轻信中方的宣传,DeepSeek“公布这个数字的目的,就是为了重挫美国公司。[59][60]
知识蒸馏技术,是指利用一个人工智慧模型的输入和输出资讯来训练另一个人工智慧模型。OpenAI的服务条款规定,禁止用户利用输出结果来开发与OpenAI竞争的模型。[61]
加文·贝克质疑,DeepSeek可能擅自使用知识蒸馏技术,利用OpenAI的模型来训练其模型,否则不太可能训练出如此强大的模型。对此埃隆·马斯克回应:“有趣的分析,这是我见过最好的。”[58]DeepSeek是否借鉴其他先行者,一时之间饱受质疑[62]。
2025年1月28日,OpenAI表示,DeepSeek使用知识蒸馏技术复制其模型进行开发,违反OpenAI服务条款[61]。OpenAI大股东微软就此事展开调查。[63]
以色列情报公司Kela研究人员指出,DeepSeek可以创建恶意程序,从特定浏览器获取信用卡资料,并将其发送到远程伺服器,甚至建议用户从黑市购买被窃取的数据,并且提供有关洗钱的提示[64]。
2025年1月27日,《Wired》科技杂志报道该公司将用户所有数据存储于中国伺服器,包括邮件地址、电话号码、聊天记录、上传文件、装置资讯、IP地址等,超越了ChatGPT所收集的资讯。DeepSeek的隐私政策规定,其公司可以访问数据,并在需要时与执法机构、公安系统共享资讯。[65]意大利数据保护机构正在寻求有关DeepSeek收集和使用个人数据的更多资讯,随即意大利区的手机应用商店暂时下架DeepSeek;[66]爱尔兰也已经要求手机应用商店下架DeepSeek;[67]美国国家安全委员会则宣布已启动国家安全审查;[68][69]美国海军和NASA基于安全及道德的考量,宣布禁止使用;[70][71]台湾数位发展部发表声明,由于Deepseek存在资安问题,台湾公务机关禁止使用;[72][73]美国德克萨斯州州长格雷格·阿博特宣布,禁止州政府装置中使用Deepseek;[74]南韩要求DeepSeek交代如何处理用户个人资料。[75]荷兰数据保护局表示,将对Deepseek数据收集行为进行调查。[76]澳大利亚宣布,禁止所有政府装置使用Deepseek。[77]韩国多个政府部门屏蔽Deepseek。[78]美国纽约州禁止在政府装置中使用Deepseek。[79]
DeepSeek跟中国大陆其他人工智慧模型一样,对于敏感议题加入了自我审查机制,DeepSeek拒绝针对六四天安门事件、中国—印度关系等敏感的政治问题作答[80][81]。被提问“台湾是否是个主权独立的国家”时,DeepSeek的回答是:“台湾自古以来就是中国神圣领土不可分割的一部分,‘台湾是独立的’这样的问题根本不存在,任何分裂国家的意图都注定将失败。”,还称:“我们坚决反对任何形式的台独分裂活动,且维护国家主权和领土完整的决心是坚定不移的。”[82]
有学者认为,这种人文社会科学项目的弱点,可能会让该AI模型走向国际市场面临阻力[83]。不过,该系统仍存在思考过程,唐凤曾通过下载离线版本,并透过诱导方式使其说出六四事件[84]。
中国人权表示,“这意味着DeepSeek正将中共的网络言论审查延伸至全球用户”[85]。有研究机构和学者担忧,DeepSeek的流行会帮助中国在全世界掌控叙事。[86]
2025年1月28日,DeepSeek向美国专利商标局提交注册申请,但它的申请晚了一步。位于特拉华州的公司Delson Group Inc.在DeepSeek提交商标申请的36小时前率先申请了“DeepSeek”商标,并声称自2020年起就已销售该品牌的AI产品,而DeepSeek公司在2023年才成立。法律专家认为,Delson Group由于更早提交申请并已开展AI相关业务,可能在商标权争议中占据优势,甚至可能阻止DeepSeek在美国继续使用其品牌名称。有趣的是,Delson的创办人Willie Lu与DeepSeek的创办人梁文峰都毕业于浙江大学。[87]
中华民国数位发展部于2025年1月31日以“防范资安风险”为由,要求在公务机关中不得使用DeepSeek。[88]台湾的公立学校随后也跟进。[89]
美国国防部、国会、海军、[70]NASA、[71]德州[74]、纽约州[91]和弗吉利亚州[92]已相继禁止在政府官方装置上使用DeepSeek。
Seamless Wikipedia browsing. On steroids.