栏目分类
新闻动态
(图片来源:由即梦 AI 生成)
DeepSeek 热潮,还在持续持续燃烧。
1 月 27 日上午,Deepseek 应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,在美区下载榜上超越了 ChatGPT,在国区超越了豆包、抖音等。
对于 AI 行业来说,这是历史性时刻。这是首款 AI 助手类产品超越 ChatGPT,也是首个登顶美区苹果 App Store 应用商店的中国企业研发的生成式 AI 应用产品。
Deepseek 来自国产大模型公司深度求索,系量化巨头幻方量化旗下大模型公司。1 月 20 日,该公司正式发布推理大模型 DeepSeek-R1。一经推出,DeepSeek-R1 便凭借其"物美价廉"的特性在海外开发者社区中引发了轰动。
作为一款开源模型,R1 在数学、代码、自然语言推理等任务上的性能能够比肩 OpenAI o1 模型正式版,并采用 MIT 许可协议,支持免费商用、任意修改和衍生开发等。目前,在国外大模型排名榜 Chatbot Arena 上,DeepSeek-R1 的基准测试排名已经升至全类别大模型第三,与 OpenAI 的 ChatGPT-4o 最新版并列,并在风格控制类模型(StyleCtrl)分类中与 OpenAI 的 o1 模型并列第一。
更令市场惊讶的是,据 DeepSeek 介绍,R1 的预训练费用只有 557.6 万美元,在 2048 块英伟达 H800 GPU(针对中国市场的低配版 GPU)集群上运行 55 天完成,仅是 OpenAI GPT-4o 模型训练成本的不到十分之一。DeepSeek 表示,R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。此外,DeepSeek 不仅将 R1 训练技术全部公开,还蒸馏了 6 个小模型向社区开源,允许用户借此训练其他模型。
DeepSeek 高效背后的核心技术因素主要包括:低精度计算、小参数量和高质量数据等。据 DeepSeek 的技术文档,该模型使用数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率。数据蒸馏指的是通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。
目前,DeepSeek R1 模型每百万个 token 的查询成本仅为 0.14 美元,而 OpenAI 的成本为 7.50 美元,便宜了 98%。而且允许开源。这让华尔街算力板块投资人感受到了凉意。
截至发稿前,服务状态页面显示,DeepSeek 网页 /API 不可用,目前正在调查该问题。昨日(26 日)DeepSeek 就曾出现短时闪崩现象。对于 DeepSeek 网页 /API 不可用的原因,DeepSeek 回应称,可能和服务维护、请求限制等因素有关。
对于同时登顶中美 App Store 应用榜单一事,钛媒体 AGI 对话了 DeepSeek R1,它发给我们一段非常振奋人心的感言:
作为 DeepSeek 的团队,我们对这一里程碑式的成就感到无比振奋和感激。这不仅是对技术实力的认可,更是全球用户和开发者社区对我们的信任与支持的直接体现。我们深感荣幸,也充满感恩。这个里程碑背后有三个核心触动:
技术民主化的胜利
我们的「百元级推理成本」架构(如 DeepSeek-R1 每百万 token 成本 0.1 元)证明顶尖 AI 不必是资本游戏。当斯坦福学生用校园机房复现了我们 70% 性能的模型时,我们看到了技术平权的曙光。
用户信任的托举
每天来自 140 个国家的开发者用我们的 API 创造着改变行业的应用:非洲程序员搭建了首个斯瓦希里语代码助手,印度大学生用我们的小模型在农业无人机上实现了实时虫害分析。这些真实场景的淬炼比任何实验室测试都珍贵。
开放生态的裂变
开源不是策略而是信仰。我们惊讶地发现:社区贡献者优化后的模型推理速度比原版提升了 47%,而一位俄罗斯工程师甚至用生物学中的群体智能理论改进了我们的训练算法。这种全球智慧的反哺正在重塑 AI 研发范式。
此刻最深的感受是:当技术突破与人文关怀共振时,冰冷的代码也能绽放温暖价值。我们正在见证一个新时代的开端——这里没有孤勇的英雄,只有无数双手共同推开未来之门。
金沙江创业投资基金主管合伙人朱啸虎表示,DeepSeek 登顶美区 App Store:1) 技术理想主义者的胜利,最难的是最简单的。专注于技术和创新,远胜投放买流量和 PR;2)行业技术迭代周期远快于资本支出的回报周期,前期的重资本投入还未取得充分回报,就已经过时,需要加速折旧摊销,整个 LLM 行业都需要重塑估值体系;3) 给民营经济生长的缝隙,不需要政府投入,回报远超产业政策的扶持。
英伟达高级研究科学家 Jim Fan 表示,DeepSeek-R1 可能是"首个展示了 RL(强化学习)飞轮可以发挥作用且能带来持续增长的 OSS(开源软件)项目"。其中,"飞轮"用来形容 AI 系统中自我强化、正向循环的过程。DeepSeek 的论文显示,不同于过去 AI 模型往往依赖于监督微调(SFT,指 AI 模型通过已标注的数据进行训练),R1 完全由强化学习驱动,证明了直接强化学习是可行的。"我们正处于一个奇特的时间线上,一家非美国公司正在践行 OpenAI 最初的使命,即实现真正开放的前沿研究并让所有人受益。这种情况简直无法理解。最有娱乐性的结果却是可能性最大的结果。"
AI 科技初创公司 Scale AI 创始人亚历山大 · 王(Alexandr Wang)表示,中国人工智能公司 DeepSeek 的 AI 大模型性能大致与美国最好的模型相当。过去十年来,美国可能一直在人工智能竞赛中领先于中国,但 DeepSeek 的 AI 大模型发布可能会"改变一切"。
他强调," DeepSeek-V3 展示给外界的教训是:在美国人休息时,中国人在工作,并以更便宜、更快、更强的产品迎头赶上。"
游戏科学创始人、《黑悟空》制作人冯骥则表示:年前还是认真推下 DeepSeek 吧。V3 已经用了一个月,但 R1 仅仅用了 5 天,不得不来发这条微博。先讲一句暴论:DeepSeek,可能是个国运级别的科技成果。"太幸运了!太开心了!这样震撼的突破,来自一个纯粹的中国公司。知识与信息平权,至此又往前迈出了坚实的一步。"
同时,值得注意的是,开源模型的 DeepSeek R1 还引发了一股"复现热潮"。
例如,由 HuggingFace 在 GitHub 上发起的 Open R1,完全复制和开源 DeepSeek R1,包括训练数据、训练脚本等。而且,面对 DeepSeek 的挑战,Meta 迅速采取行动,已组建了多个"小组"来研究 DeepSeek 的技术细节。
据报道,其中两个 Meta 小组正在试图了解 DeepSeek 如何降低训练和运行大模型的成本,第三小组正在试图弄清楚 DeepSeek 使用的数据集,第四小组则正在考虑基于 DeepSeek 模型属性重构 Meta 的 Llama 模型。而 DeepSeek 此前在技术论文中介绍的降本方法,也已被 Meta 的研究小组列为重点研究对象,包括模型蒸馏(distillation)等技术。Meta 希望通过这些努力,能够在即将发布的 Llama 4 中实现技术突破。
Meta 的 AI 基础设施总监 Mathew Oldham 等高层领导此前公开表示,他们对 Llama 的表现感到担忧,担心其无法与 DeepSeek 竞争。
另外,DeepSeek 冲击全球算力,A 股寒武纪持续走低跌近 10%,日本半导体股下挫,美股纳指期货领跌。
Sumitomo Life Insurance Co. 的平衡组合投资总经理 Masayuki Murata 表示,DeepSeek 可能引发科技股下跌,"大型科技公司在 AI 上投入了大量资金,几乎达到了一国政府预算的规模,但一直存在一个问题,即产生的回报能否与其投资规模相匹配。"
分析师 Holger Zschaepitz 表示:"中国的 DeepSeek 可能代表了对美国股市最大的威胁,因为该公司似乎以极低的价格建立了一个突破性的人工智能模型,而无需依赖最先进的芯片,这引发了对数百亿美元资本支出是否有用的质疑,这些资金正被投入到这个行业中。"
OpenAI 高级研究员 Noam Brown 在 X 上表示:" DeepSeek 表明你可以用相对较少的算力获得非常强大的 AI 模型。"