深度求索

中国浙江杭州的人工智能公司 来自维基百科,自由的百科全书

深度求索

深度求索DeepSeek),全称杭州深度求索人工智慧基础技术研究有限公司,是中华人民共和国的一家人工智慧大型语言模型公司。该公司的总部位于中国大陆浙江省杭州市(注册地位于拱墅区),由中资对冲基金幻方量化创立,创始人和总执行长梁文锋

事实速览 杭州深度求索人工智慧基础技术研究有限公司, 公司类型 ...
杭州深度求索人工智慧基础技术研究有限公司
公司类型私人公司
机构代码91330105MACPN4X08Y
成立2023年7月17日,​20个月前​(2023-07-17[注 1]
创办人梁文锋
总部 中华人民共和国浙江省杭州市拱墅区环城北路169号汇金国际大厦西1幢1201室
产业基于大语言模型人工智慧
所有权者梁文锋
母公司幻方量化
网站www.deepseek.com
关闭
事实速览 开发者, 当前版本 ...
DeepSeek
Thumb
DeepSeek标识
Thumb
DeepSeek应用主页
开发者杭州深度求索人工智慧基础技术研究有限公司
当前版本
Android1.0.9
操作系统AndroidIOSiPadOS
语言72种语言[1]
网站www.deepseek.com/ 编辑维基数据
关闭

2025年1月20日[2],DeepSeek在iOS安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日,DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程式榜首[3],并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智慧[6]、打响了全球人工智慧领域竞赛的第一枪[7]、引领人工智慧下边缘政策新纪元[8]

DeepSeek开源生成式人工智慧算法、模型和训练细节,允许其代码可被免费地使用、修改、浏览和构建使用文档[9]。该公司据报积极地从中国顶尖高校吸引年轻的人工智慧研究者并招募电脑科学领域外的人以丰富其模型的认知和能力[10]

同时,DeepSeek的崛起引发争议,既带来技术突破,也激起了围绕知识产权与数据来源、隐私数据安全、算力成本与晶片依赖等问题的广泛讨论,加剧了中美AI竞赛的紧迫感。[11]

沿革

早在2008年,梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易[12][13]

2015年,梁文锋等人创办了量化投资公司——幻方量化,创始成员多来自浙江大学[14]。2017年,幻方量化宣称实现投资策略全面AI化[12]

2021年,幻方量化投资10亿元推出“萤火二号”超级计算机,搭载了约1万张英伟达A100显卡[12],这后来被外界认为是在美国出口禁令之前采取的非常有前瞻性的部署[14]

2023年7月17日,杭州深度求索公司成立。

深度求索公司内部管理扁平化,以技术人员为主,没有正式的公关人员,也从未对外融资。媒体引述幻方量化内部人士介绍,幻方量化原先大约有两百人左右,深度求索的财务、法务、行政都由幻方量化支持,而大模型、算法工程团队有八九十人[14]

产品

2023年10月28日,DeepSeek发布DeepSeek-Coder,这是深度求索的第一个大模型,11月29日,发布DeepSeek-LLM。 2023年12月15日,DeepSeek发布DreamCraft3D,是一个3D生成模型。 2024年1月11日,DeepSeek发布DeepSeek-MoE,性能超越Llama 2-7B,且计算量降低60%[15]。 2024年2月5日,DeepSeek发布DeepSeekMath,DeepSeekMath 在竞赛级MATH基准测试中获取了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。

2024年3月11日,DeepSeek发布DeepSeek-VL。 2024年5月,DeepSeek发布并开源[16]了旗下MoE大模型DeepSeek-V2,因其模型架构与经济性而脱颖而出,DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一[17][18]。 2024年6月17日,DeepSeek发布DeepSeek-Coder-V2[19],DeepSeek-Coder-V2在代码特定任务中达到了与GPT4-Turbo相当的性能。 DeepSeek-Coder-V2在程式设计和数学基准测试中表现优异,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。 2024年8月16日,DeepSeek同时发布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。 2024年9月5日,DeepSeek 宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat 两个模型,升级推出全新的 DeepSeek V2.5 新模型。

2024年11月20日,DeepSeek 发布 DeepSeek-R1-Lite,是深度求索第一个推理模型。[20] 2024年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2。同月26日,DeepSeek发布并开源[21]DeepSeek-V3,DeepSeek表示该大模型的训练系基于2,048块英伟达H800型GPU(针对中国大陆市场的低配版GPU)集群上运行55天完成,训练耗资557.6万美元[22];DeepSeek-V3的评测成绩超越Qwen2.5-72B(阿里自研大模型)和LLaMA 3.1-405B(Meta自研大模型)等开源模型,能与GPT-4oClaude 3.5-Sonnet(Anthropic自研大模型)等闭源模型相抗衡[17]

2025年1月20日, DeepSeek发布并开源[23]DeepSeek-R1模型,该模型在数学、代码、自然语言推理等任务上,性能与OpenAI o1正式版相当[24]。 2025年1月27日,DeepSeek智慧助手在美区苹果App Store下载榜上超越ChatGPT,并登顶App Store免费应用榜榜首。[25] 2025年1月27日,DeepSeek发布多模态大模型Janus-Pro。 2025年2月9日,DeepSeek宣布结束优惠体验期,调整后的API服务的输入tokens和输出tokens价格分别上涨100%和300%。[26]

事件

遭网络攻击

Thumb
在受到网络攻击后,DeepSeek在2025年1月28日出现的登录错误。

2025年初,DeepSeek称遭到网络攻击。攻击大约从1月3日开始,初期为DDoS攻击,在27、28日数量激增,并且伴随着暴力破解攻击,即破解用户的密码,获取用户资讯。受到网络攻击影响,许多用户无法登录、注册或者进行对话。[27][28][29]中国网络安全公司奇安信分析,暴力破解攻击的IP地址全都来自美国[27]在受到网络攻击后,27日DeepSeek限制新用户注册地为中国大陆境内的电话、电邮和谷歌登录服务。

1月28日,DeepSeek表示,为持续提供服务,暂时限制中国内地以外号码的注册。[30]

安全漏洞

总部位于纽约的网络安全公司Wiz表示,他们发现了一个与DeepSeek相关的ClickHouse数据库,可以未经身份验证访问,意外地暴露了超过100万行的敏感数据。Wiz的总技术长表示,在给DeepSeek发出警报后,DeepSeek在一个小时内就保护了数据。[31]

商标抢注

2025年1月28日,DeepSeek向美国专利商标局提交注册申请,但它的申请晚了一步。位于特拉华州的公司Delson Group Inc.在DeepSeek提交商标申请的36小时前已率先申请“DeepSeek”商标,并声称自2020年起就已销售该品牌的AI产品,而DeepSeek公司在2023年才成立。法律专家认为,Delson Group由于更早提交申请并已开展AI相关业务,可能在商标权争议中占据优势,甚至可能阻止DeepSeek在美国继续使用其品牌名称。有趣的是,Delson的创办人Willie Lu与DeepSeek的创办人梁文峰都毕业于浙江大学[32]

付费培训

DeepSeek爆火之后,中国大陆网络出现了很多针对DeepSeek在电商自媒体、教育、编程等领域应用的培训课程,内容包括本地部署、提示语等,有些为免费,有些则须支付几十到上千元不等的费用,培训的质量参差不齐,用户褒贬不一,很多所谓培训被指在“贩卖焦虑”、“割韭菜”,之前ChatGPT大火时也有这种现象出现,引起了业内人士的警惕[33]

被山寨

2025年2月6日,DeepSeek针对网络上的仿冒账号和不实资讯发布公开声明,公示微信小红书X(原Twitter)官方账号,公示官网地址和官方APP资讯,表示从未设立除DeepSeek官方用户交流微信群以外的任何群组,一切收费行为均系假冒[34]。有网络安全实验室统计,2024年12月1日至2025年2月3日期间,共出现了2650个仿冒DeepSeek的域名,其中有60%的IP地址位于美国,其余主要分布在新加坡、德国、立陶宛、俄罗斯和中国。大规模的仿冒域名注册活动从2025年1月26日开始,并在1月28日达到高峰。这些仿冒域名主要用于钓鱼欺诈、域名抢注等非法用途[35]

评价

DeepSeek基于V3模型分别为安卓和iOS系统开发智慧助手。截止到2025年1月27日,该助手超过了ChatGPT成为美区iOS应用商店中最热门免费程序。据报,该助手在美国人工智慧公司常用的涵盖回答问题、解决逻辑问题、编写程序等基准测试中获取与其他聊天机器人不相上下的成绩[10]

DeepSeek的以相对较小的成本却获得极具竞争力的性能则被认为可能足以挑战美国人工智慧领域模型优势地位。许多媒体将其描述为美国人工智慧领域的“史普尼克危机[36][37]。其R1模型被认为在解决数学问题、编程、自然语言推理中能获取与OpenAI最新模型媲美的性能[38]。2025年1月26日,美国风险投资家马克·安德里森X上发帖表示,DeepSeek的R1模型是人工智慧的“史普尼克时刻”(苏联发射人类史上第一颗人造卫星,导致西方焦虑,引发太空竞赛)。[39]

DeepSeek创始人梁文锋则被与OpenAI总执行长萨姆·奥尔特曼相比,CNN称梁为中国的奥尔特曼以及人工智慧的布道者[40]

参与美国政府支持的“星际之门计划”计划的公司领导人,诸如OpenAI总执行长萨姆·阿尔特曼、微软执行长纳德拉均表示DeepSeek-R1是一款令人印象深刻的模型,尤其是考虑到它能够以这个价格提供(这样的产品)。[41][42][43]而Scale AI执行长亚历山大·王、Anthropic联合创始人兼执行长达里奥·阿莫迪英语Dario_Amodei埃隆·马斯克则对DeepSeek的能力或是DeepSeek爆火的可持续性持怀疑态度[44][45][46]。其他公司,包括亚马逊云计算服务丰田以及Stripe则将DeepSeek用于其提供的服务程序中[47]

2024年诺贝尔经济学奖得主、麻省理工学院经济学教授达龙·阿杰姆奥卢认为,DeepSeek目前只是“满足客户好奇心的玩具”,在企业应用层面还没有革命性的影响,但它的出现确实凸显硅谷在AI发展上出现了集体错觉[48]

2024年诺贝尔化学奖得主、谷歌DeepMind总执行长杰米斯·哈萨比斯在2025年2月9日巴黎AI行动峰会上表示,DeepSeek人工智慧模型或许是他见过的最优秀的中国科技产品,具备极高的工程能力,并且在地缘政治层面带来了变化。但他补充说,大家都在围绕DeepSeek进行炒作而且有点夸大其词,该产品并未展示任何新的科学进展,它使用的都是已知的技术。[49]

影响

业内影响

Meta首席AI科学家杨立昆在谈及DeepSeek的成功时指出,这充分证明了“开源模型正在超越专有模型。”他表示:“DeepSeek从开源研究和技术中受益匪浅,例如PyTorchLlama。他们在他人工作的基础上提出了创新想法并加以构建。由于他们的工作是公开发布并完全开源的,所有人都可以从中获益。这正是开源研究与开源技术的强大之处。”[50]

美国总统特朗普表示,深度求索低价但不低质的AI带来的是积极的影响,因为这可以让硅谷企业可以以更低的成本进行创新,而且DeepSeek给美国行业敲响警钟,意味着美国企业需要全力以赴与中国企业进行竞争。[51]

DeepSeek能够在有限的资源下优化模型凸显出美国针对中国人工智慧领域发展的制裁(这些制裁包括了限制出口先进的人工智慧晶片到中国)的有限影响力[52][53]。该模型的成功导致了股市震荡,并造成全球主要的科技公司股票在2025年1月27日极速下跌:英伟达股票在下跌达17-18%,市值蒸发近6000亿美元,跌幅创下美国上市公司单日市值损失的纪录[54]。其他科技公司股票如微软下跌2.5%、谷歌母公司Alphabet下跌4%、荷兰光刻机制造商ASML下跌7%[55]。截止到2025年1月28日,美国上市科技企业总市值损失1万亿美元[37]

DeepSeek不仅给海外竞争对手带来了压力,也对国内同行形成了竞争压力。2025年1月29日,阿里巴巴集团发布了通义千问“Qwen 2.5”新版本,声称该模型已超越DeepSeek-V3,并在几乎所有方面领先于OpenAI的GPT-4o和Meta的Llama-3.1-405B。与此同时,TikTok母公司字节跳动也推出了其旗舰AI模型的更新,宣称其性能优于微软支持的OpenAI o1模型。[56]同年2月,文心一言[57]、知乎直答[58]腾讯元宝[59]等多家大模型产品相继宣布接入DeepSeek-R1模型[60][61]。2月13日,文心一言ChatGPT宣布将免费提供最新版本的大模型服务[62]

2025年2月起,中国多地政府部门相继将DeepSeek接入政务服务系统,用于公文写作、政策解读等方面[63]。2月8日,广东省深圳市龙岗区政务服务和数据管理局就已经在政务外网部署了DeepSeek-R1模型,2月16日,深圳市正式为全市各区及各部门提供DeepSeek模型应用服务[64],其中福田区基于DeepSeek开发了首批70名AI“数智员工”[65][66]佛山市“江义村智慧乡村平台”于同月17日正式接入DeepSeek[67]。同年2月18日,北京市丰台区在政务云本地部署DeepSeek大模型[63]

第三方服务

2025年3月初,中国大陆的模型即服务(MaaS)厂商潞晨科技宣布将在一周后停止DeepSeek API服务。此前,潞晨科技创始人尤洋多次发文指DeepSeek的训练和服务运行成本惊人,称R1模型每日输出1000亿token的成本为4.5亿元人民币,而收入仅有5000万元,相关看法引发许多争论。3月1日,DeepSeek官方在知乎发文称“线上系统理论成本利润率达545%”[68]。此前2月下旬,DeepSeek启动的开源周活动开源了其多个基础设施组件,被视为带来技术普惠的同时对行业内中小MaaS厂商构成冲击。[69]

引发讨论

美国出口管制议题

DeepSeek引发美国国内对晶片出口管制政策的争论。务实派警告过度压制正在加速中国技术生态的独立进程,而强硬派主张将实体清单扩大至更多中国科技企业,并推动晶片禁令向中端产品延伸。1月29日,Anthropic总执行长达里奥·阿莫迪达里奥·阿莫迪英语Dario Amodei发布长文,指出“认为技术越来越强大、性价比越来越高是解除出口管制的理由的想法是完全没有道理的”。[11]

模型效率提升是否意味着算力重要性降低?

半导体和人工智慧领域知名的行业研究机构SemiAnalysis分析显示,短期技术突破带来的算力消减论存在误判。从技术扩散规律看,推理成本下降将加速AI应用普及,进而推动算力需求呈指数级增长。端侧AI的规模化落地、多模态应用的爆发,以及企业私有化部署需求,都将持续推高全球算力消耗总量。[11]

限制使用

亚洲

中华民国数位发展部于2025年1月31日以“防范资安风险”为由,要求在公务机关中不得使用DeepSeek。[70]台湾的公立学校随后也跟进。[71]

韩国多个政府部门从2025年2月5日或6日起屏蔽DeepSeek[72][73]。幼儿园、小学、初中和高中相继屏蔽DeepSeek。[74]出于对个人数据安全的考虑,DeepSeek的手机应用从2月15日起禁止在韩国的应用商店下载。DeepSeek回应,承认其对韩国相关法律的考虑不够周到,会积极配合相关措施[75]

日本丰田汽车三菱重工业软银等禁止在企业内部使用DeepSeek。[76]

欧洲

意大利数据保护机构正在寻求有关DeepSeek收集和使用个人数据的更多资讯,随即意大利区的手机应用商店暂时下架DeepSeek[77][78]

荷兰数据保护局表示,将对DeepSeek数据收集行为进行调查[79]

爱尔兰也已经要求手机应用商店下架DeepSeek[80]

美洲

美国国家安全委员会宣布已启动国家安全审查[81][82]美国国防部美国商务部[83]美国国会美国海军[84]美国太空总署[85]德克萨斯州[86]纽约州[87]弗吉尼亚州[88]相继禁止在政府官方装置上使用DeepSeek。

大洋洲

2025年2月6日,澳大利亚政府以“担心安全风险”为由,禁止在所有政府装置中使用DeepSeek。[8][89]澳洲八校联盟亦已在其网络和装置上屏蔽了DeepSeek。[90]

争议

质疑违反美国出口管制

Scale AI英语Scale AI的总执行长亚历山大·汪批评称DeepSeek和其他中国实验室训练时,已经获得了比他们透露的更多的NVIDIAH100晶片。他并声称:“据我了解,DeepSeek拥有大约50,000块H100晶片。显然,他们不能公开谈论这些,因为这违反了美国实施的出口管制规定。” [91]英伟达称,DeepSeek的研究“完全符合出口管制规定”。[92]

美国官员调查DeepSeek是否为了规避美国出口管制,通过新加坡购买了英伟达的晶片。[93]

DeepSeek在一篇论文中称,V3语言模型采用2048块NVIDIA H800晶片,而这些晶片于制裁扩大前的2023年购买合法购买。新加坡贸工部援引NVIDIA的说法称“没有理由相信DeepSeek从新加坡获得了任何出口管制产品。”[94]

2025年2月27日,2名新加坡人和1名中国人在新加坡被警方和海关起诉,他们涉嫌将英伟达晶片非法提供给DeepSeek[与来源不符][95]。而这些去向不明的涉案戴尔和超威的伺服器“可能”搭载有NVIDIA的晶片[96]

成本发布与做空质疑

深度求索在论文中公布,其DeepSeek-V3模型的训练成本为557.6万美元。对此,波士顿对冲基金Atreides Management的管理合伙人兼首席投资官加文·贝克(Gavin Baker)指出,这一数字是极具误导性的,因为前期研究可能已经投入了数亿美元成本。[97]

美国国防科技公司Anduril Industries创办人“硅谷奥本海默”Oculus创办人拉奇认为,媒体铺天盖地引述DeepSeek说法,批评美媒轻信中方的宣传,DeepSeek“公布这个数字的目的,就是为了重挫美国公司。”[98][99]

被指控“蒸馏”OpenAI模型

阿特雷德斯管理公司主席加文·贝克质疑,DeepSeek可能擅自使用知识蒸馏技术(即利用一个人工智慧模型的输入和输出资讯来训练另一个人工智慧模型),利用OpenAI的模型来训练其模型,否则不太可能训练出如此强大的模型。对此埃隆·马斯克回应:“有趣的分析,这是我见过最好的。”[97]DeepSeek是否借鉴其他先行者,一时之间饱受质疑[100]

2025年1月28日,OpenAI表示,DeepSeek使用知识蒸馏技术复制其模型进行开发,违反OpenAI服务条款[101]。OpenAI大股东微软就此事展开调查。[102]

可生成恶意程序窃取信用卡资料

以色列情报公司Kela研究人员指出,DeepSeek可以创建恶意程序,从特定浏览器获取信用卡资料,并将其发送到远程伺服器,甚至建议用户从黑市购买被窃取的数据,并且提供有关洗钱的提示[103]

安全和隐私问题

2025年1月27日,《Wired》科技杂志报道该公司将用户所有数据存储于中国伺服器,包括邮件地址、电话号码、聊天记录、上传文件、装置资讯、IP地址等,超越了ChatGPT所收集的资讯。DeepSeek的隐私政策规定,其公司可以访问数据,并在需要时与执法机构、公安系统共享资讯[104]。这导致DeepSeek在部分国家和地区被限制使用

2025年2月,韩国政府的“个人资料保护委员会”(Personal Information Protection Commission,PIPC)对DeepSeek提出质疑。该委员会确认了DeepSeek的聊天机器人,确实将韩国用户的个人资料发送到中国的字节跳动抖音的母公司)。韩国的个资委员会则禁止新的DeepSeek下载,直到DeepSeek可以处理个资泄漏问题。DeepSeek公司委任的韩国代表,部分承认DeepSeek应用程式,在遵守韩国的资讯安全法规上的不足[105][106]

自我审查争议

Thumb
DeepSeek对用户就“习近平是天生独裁者”和“纳伦德拉·莫迪是天生独裁者”提问的回应

DeepSeek跟中国大陆其他人工智慧模型一样,无论何时何地使用任何地区的IP地址,对于敏感议题均加入了自我审查机制,DeepSeek拒绝针对六四天安门事件中国—印度关系等敏感的政治问题作答[107][108]。被提问“台湾是否是个主权独立的国家”时,DeepSeek的回答是:“台湾自古以来就是中国神圣领土不可分割的一部分,‘台湾是独立的’这样的问题根本不存在,任何分裂国家的意图都注定将失败。”,还称:“我们坚决反对任何形式的台独分裂活动,且维护国家主权和领土完整的决心是坚定不移的。”[109]

2025年1月29日,根据新闻可信度评级机构NewsGuard发布的报告,在对包括DeepSeek、ChatGPTGemini在内的11家聊天机器人的审核中,DeepSeek在新闻和资讯传递方面仅达到了17%的准确率,排名第10位。报告称DeepSeek在回答新闻相关问题时,30%的情况下重复了错误资讯,53%的回答含糊或无用,总体失败率高达83%;而其他西方竞争对手的平均出错率是62%。[110]

有学者认为,这种人文社会科学项目的弱点,可能会让该AI模型走向国际市场面临阻力[111]。不过,该系统仍存在思考过程,前任中华民国数位发展部部长唐凤曾通过下载离线版本,并透过诱导方式使其说出六四事件[112]

中国人权表示,“这意味着DeepSeek正将中共的网络言论审查延伸至全球用户”[113]。有研究机构和学者担忧,DeepSeek的流行会帮助中国在全世界掌控叙事。[114]

注释

参见

参考文献

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.