DeepSeek没有冲击英伟达黄仁勋还大赞R1

时间:2025-03-02 20:01:04 来源:乐鱼手机版官网登录入口

  当DeepSeek-V3和R1模型在硅谷掀起惊涛骇浪时,人们认为如果低成本都能打造高性能模型,那么依靠昂贵GPU堆砌算力的效果将大打折扣。

  刚刚发布的财报多个方面数据显示,英伟达第四财季营收为393.31亿美元,较上年同期增长78%。2025财年全年营收1305亿美元,较2024财年增长114%。

  H20芯片的订单激增,Blackwell平台的前景一片光明,更多高效模型的出现也点燃了对AI基础设施更加旺盛的需求。

  业界一致认为,Scaling Law并没有完全失效,只是Scaling的方向正在发生明显的变化,随之而来的则是,AI行业逐渐走向了另一条分叉口——Test-Time Scaling。

  Test-Time Scaling大多数都用在推理阶段,通过分配额外的计算资源来优化模型的推理性能。

  英伟达的Hopper架构和Blackwell架构都能明显提升模型推理的效率。其中Blackwell系列更是被寄予厚望,能够为Test-Time Scaling提供强大的硬件支持。

  我们已成功大规模量产Blackwell AI超级计算机,并在首个季度实现了数十亿美元的销售额。随着自主智能体AI(Agentic AI)和物理AI的发展,AI正以光速推进,为下一波AI革命奠定基础,重塑各大核心行业。

  Blackwell芯片架构亮相于去年的GTC 2024开发者大会,以美国数学家David Blackwell命名,旨在支持大规模AI模型的训练和推理,具备高性能和高效率的特点。

  但这款今天被黄仁勋誉为“在每个方面都‘表现非凡’”的芯片,却在投产过程中一波多折。

  据悉,Blackwell芯片在设计上存在重大缺陷,特别是在连接两个GPU的关键电路上,导致良品率较低。在高密度服务器机架中,Blackwell芯片也会因散热不足导致过热,影响性能并可能损坏硬件。

  好在,后续在台积电的帮助下,英伟达修复了设计缺陷。谈及在早期生产Blackwell时遇到的“小问题”时,黄仁勋表示,“这可能让我们损失了几个月的时间。”

  不过,他补充道,公司“以光速”恢复,并从中吸取了经验,为Blackwell Ultra(B300系列)的生产做好了准备。他表示,“下一班火车”将按照“每年的节奏”推进。

  Blackwell Ultra是英伟达下一代重要的AI芯片,这款芯片在技术规格上实现了显著提升,特别是在推理性能、显存容量和带宽方面,并引入先进的冷却技术。

  其不仅配备288GB HBM3E显存,显存容量相比B200的192GB提升,显存带宽达到1792 GB/s,功耗也达到了1400W,按照英伟达的路线图,预计将在今年下半年推出。

  谈到Blackwell的过渡,黄仁勋表示:“这是一次很具有挑战性的转变。”但他预计,未来向Blackwell Ultra的过渡会更加顺利。

  他解释说,Blackwell Ultra的过渡更平稳,因为其芯片架构与Blackwell相同。而相比之下,从Hopper过渡到Blackwell的挑战要大得多。

  黄仁勋指出,AI芯片最好被视为软件——它将无处不在,遍布每个国家和地区。“每一个学生都会使用AI作为导师,”他补充道:“没有一家金融科技公司不会使用AI。”

  基于此,市场对Blackwell的需求更是惊人的,推理AI引入了另一条Scaling Law——增加训练计算量可以让模型更智能,而增加长期思考的计算量则能让答案更精准。

  在Test-Time Scaling以及OpenAI o3、DeepSeek R1和Grok 3等新推理模型的推动下,后训练和模型定制的规模巨大,总体上需要数量级更高的计算加速。

  除此之外,受美国出口管制的影响,英伟达为中国市场推出了版H20芯片。

  这款芯片性能虽不及H100或H200,但在合规性与性价比上表现出色。尤其是其在DeepSeek模型上的良好表现吸引了众多企业的关注,导致订单在近期出现了“明显地增长”。

  不过,Kress在财报电话会议上表示,公司的中国数据中心收入“远低于正常水平”。她指出,该收入水平是在监督管理法规变化之前的情况,并预计中国的出货量将“基本维持在当前比例”。

  她还表示,由于Blackwell产能的快速提升,美国的数据中心收入最为强劲。

  在过去几个月,全球AI基础设施投资热潮已然形成燎原之势,美国科技巨头在AI领域的投资预算近日也陆续公布,得益于目前英伟达在GPU市场的优势地位,预计不少预算将被收入囊中。

  OpenAI与软银等联合启动“星际之门”计划,未来四年内投资5000亿美元建设AI数据中心。

  Google计划在2025年投入约750亿美元用于AI数据中心和相关基础设施。

  亚马逊计划在2025年投入超过1000亿美元,大多数都用在云计算和AI技术的研发。

  一方面,正如黄仁勋所说,尽管英伟达制造了很多芯片,但这并不代表它们会被公司购买,以及部署,他表示,作出商业决策时需要仔细考虑其他因素。

  他还提到,英伟达能够继续取得成功并保持强劲的需求,原因之一是该公司“部署能力快如闪电”以及其持续创造更先进的技术。

  另一方面,据外媒The Information援引Arm CEO Rene Haas的说法,尽管英伟达在已部署基础设施上占据非常大的优势,但芯片初创企业同样正在推动诸多创新,比如光纤基板、共同封装光学器件、革命性内存架构以及内存计算等。

  春节期间DeepSeek在硅谷的爆火出圈,也给英伟达的发展增添了新的变量。

  通过算法创新、数据压缩和推理优先的设计,DeepSeek以极低的训练成本,打造出高性能模型DeepSeek-V3/R1,引发了一连串的连锁反应。

  常规的看法是,受到DeepSeek的冲击,英伟达的市值一度在一天内暴跌了5890亿美元。

  但DeepSeek不仅没有削弱“算力至上”的逻辑,反而在某一些程度上进一步强化了这一信仰,尤其是DeepSeek模型的训练过程仍旧依赖于英伟达H800芯片集群,而这也是常被市场忽视的关键事实。

  黄仁勋上周接受媒体采访时也表示,尽管DeepSeek确实在预训练模型方面取得进展,但后训练阶段仍需要庞大算力;后训练才是培养AI模型智力、即学习怎么样解决问题和推理的最关键环节。

  包括DeepSeek这几天连续开源多个英伟达GPU优化项目,在探索模型性能极限之余,也进一步加深了其与英伟达生态的绑定。

  比方说,昨天开源的DeepGEMM是一个高效、简洁的FP8矩阵乘法(GEMM)库。

  其采用的Just-In-Time(JIT)设计、两级累加以及高性能优化技术,如TMA和指令重叠,使其在DeepSeek-V3中表现出色,但同时DeepGEMM也是专为英伟达Hopper架构和稀疏专家模型(MoE)优化。

  此外,当DeepSeek正在用开源切入英伟达的市场,双向奔赴的英伟达也正在用生态整合DeepSeek的成果。

  DeepEP在上午开源后,英伟达下午便将其集成到Megatron-LLM中。有消息称(@共识粉碎机),英伟达内部已将对DeepSeek的支持重要性提升至比Llama更高的优先级,内部资源和流程也是一路绿灯。

  英伟达近期更是开源了专为Blackwell架构调优的DeepSeek-R1版本。该版本在推理处理速率提升至原来的25倍,同时每个token的计算成本仅为此前的1/20。

  从机遇角度看,DeepSeek的开源正在为英伟达带来前所未有的市场红利。

  黄仁勋在电话会议中也提到,“DeepSeek R1点燃了全球的热情”。短期内,开源引发的算力热潮直接推高了GPU销量。

  长期来看,开源社区的活跃将进一步巩固英伟达的生态优势,开发者对CUDA的依赖只会加深,而企业客户在追求更高性能时仍会选择Blackwell等新品。

  最底层的逻辑是,低成本模式适用于消费级应用,但在企业级AI(如AGI研发)中,英伟达的高端芯片仍是无法替代的。未来,AI行业可能走向“双轨制”,低端市场追求性价比,高端市场继续依赖算力驱动。

  用一句更形象的话概括,当全世界都在担心DeepSeek会成为英伟达的掘墓人时,黄仁勋却在背后悄悄给它递了把铲子: