显卡可能没那么重要了?中国公司给硅谷好好上了一课

繁体

显卡可能没那么重要了?中国公司给硅谷好好上了一课

我是万万没想到,就在西方还沉浸在圣诞假期,疯狂 “ 过年 ” 的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

紧接着又来了个国产大模型 DeepSeek,甚至有股做空英伟达的味道。

具体咋回事儿,咱给你唠明白咯。

前几天, DeepSeek 刚刚公布最新版本 V3 ,注意,与大洋彼岸那个自称 Open ,却越来越 Close 的公司产品不同,这个 V3 是开源的。

不过开源还不是他最重要的标签, DeepSeek-V3 ( 以下简称 V3 )还兼具了性能国际一流,技术力牛逼,价格击穿地心三个特点,这一套不解释连招打得业内大模型厂商们都有点晕头转向了。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

V3 一发布, OpenAI 创始成员 Karpathy 直接看嗨了,甚至发出了灵魂提问,难道说大模型们压根不需要大规模显卡集群

我估计老黄看到这头皮都得发麻了吧。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

同时, Meta 的 AI 技术官也是直呼 DeepSeek 的成果伟大

显卡可能没那么重要了?中国公司给硅谷好好上了一课

知名 AI 评测博主 Tim Dettmers ,直接吹起来了,表示 DeepSeek 的处理优雅 “elegant” 。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

而在这些技术出身的人,看着 V3 的成绩送去赞扬的时候,也有些人急了。比如奥特曼就搁那说,复制比较简单啦,很难不让人觉得他在内涵 DeepSeek 。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

更有意思的是,做到这些的公司既不是什么大厂,也不是纯血 AI 厂商。

DeepSeek 公司中文名叫深度求索,他们本来和 AI 没任何关系。

就在大模型爆火之前,他们其实是私募机构幻方量化的一个团队

显卡可能没那么重要了?中国公司给硅谷好好上了一课

而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。

早在 2019 年,幻方就投资 2 亿元搭建了自研深度学习训练平台 “ 萤火虫一号 ” ,到了 2021 年已经买了足足 1 万张英伟达 A100 显卡的算力储备了。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

要知道,这个时候大模型没火,万卡集群的概念更是还没出现。而正是凭借这部分硬件储备,幻方才拿到了 AI 大模型的入场券,最终卷出了现在的 V3 。你说好好的一个量化投资领域的大厂,干嘛要跑来搞 AI 呢?

深度求索的 CEO 梁文锋在接受暗涌采访的时候给大家聊过,并不是什么看中 AI 前景。

而是在他们看来, “ 通用人工智能可能是下一个最难的事之一 ” ,对他们来说, “ 这是一个怎么做的问题,而不是为什么做的问题。 ”

显卡可能没那么重要了?中国公司给硅谷好好上了一课

就是抱着这么股 “ 莽 ” 劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲 V3 有啥特别的地方。首先就是性能强悍,目前来看,在 V3 面前,开源模型几乎没一个能打的。

还记得去年年中,小扎的 Meta 推出模型 Llama 3.1 ,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在 V3 手里,基本是全面落败

而在各种大厂手里的闭源模型,那些大家耳熟能详的什么 GPT-4o 、 Claude 3.5 Sonnet 啥的, V3 也能打得有来有回。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。

所以在圈子里有了一个新的计量单位 “GPU 时 ” ,也就是用了多少块 GPU 花了多少个小时的训练时间。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

GPU 时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。前面说的此前开源模型王者, Llama 3.1 405B ,训练周期花费了 3080 万 GPU 时。

可性能更强的 V3 ,只花了不到 280 万 GPU 时。以钱来换算, DeepSeek 搞出 V3 版本,大概只花了 4000 多万人民币。而 Llama 3.1 405B 的训练期间, Meta 光是在老黄那买了 16000 多个 GPU ,保守估计至少都花了十几亿人民币。

至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

你别以为 DeepSeek 靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。为了搞清楚 DeepSeek 的技术咋样,咱们特地联系了语核科技创始人兼 CTO 池光耀,他们主力发展企业向的 agent 数字员工,早就是 DeepSeek 的铁粉了。

池光耀告诉我们,这次 V3 的更新主要是 3 个方面的优化,分别是通信和显存优化推理专家的负载均衡以及FP8 混合精度训练

各个部分怎么实现的咱也就不多说了,总体来说,大的整体结构没啥变化,更多的像是咱们搞基建的那一套传统艺能,把工程做得更高效、更合理了。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

首先, V3 通过通信和显存优化,极大幅度减少了资源空闲率,提升了利用效率。

而推理专家( 具备推理能力的 AI 系统或算法,能够通过数据分析得出结论 )的负载均衡就更巧妙了,一般的大模型,每次启动,必须把所有专家都等比例放进工位( 显存 ),但真正回答用户问题时,十几个专家里面只用到一两个,剩下的专家占着工位( 显存 )摸鱼,也干不了别的事情。

而 DeepSeek 把专家分成热门和冷门两种,热门的专家,复制一份放进显存,处理热门问题;冷门的专家也不摸鱼,总是能被分配到问题

FP8 混合精度训练则是在之前被很多团队尝试无果的方向上拓展了新的一步,通过降低训练精度以降低训练时算力开销,但却神奇地保持了回答质量基本不变。也正是这些技术上的革新,才得到了大模型圈的一致好评。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

通过一直以来的技术更新迭代, DeepSeek 收获的回报也是相当惊人的。他们 V3 版本推出后,他们的价格已经是低到百万tokens几毛钱、几块钱。他们甚至还在搞了个新品促销活动,到明年 2 月 8 号之前,在原来低价的基础上再打折。

而一开始提到同样开源的 Claude 3.5 Sonnet ,每百万tokens,至少都得要几十块以上。。。更要命的是,这对 DeepSeek 来说已经是常规套路了。

早在去年初,DeepSeek V2 模型发布后,就靠着一手低价,被大家叫做了AI 界拼多多。他们还进一步引发了国内大模型公司的价格战,诸如智谱、字节、阿里、百度、腾讯等大厂纷纷降价。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

池光耀也告诉我们,他们公司早在去年 6 、 7 月份就开始用上了 DeepSeek ,当时也有国内其他一些大模型厂商来找过他们。但和 DeepSeek 价格差不多的,模型 “ 又太笨了跟 DeepSeek 不在一个维度 ” ;如果模型能力和 DeepSeek 差不多,那个价格 “ 基本都是 10 倍以上 ” 。

更夸张的是,由于技术 “ 遥遥领先 ” 带来的降本增效,哪怕 DeepSeek 卖得这么便宜,根据他们创始人梁文峰所说,他们公司还是赚钱的。。。是不是有种隔壁比亚迪搞 998 ,照样财报飘红的味道了。

显卡可能没那么重要了?中国公司给硅谷好好上了一课

不过对于我们普通用户来说, DeepSeek 似乎也有点偏门了。因为他的强项主要是在推理、数学、代码方向,而多模态和一些娱乐化的领域不是他们的长处。

而且眼下,尽管 DeepSeek 说自己还是赚钱的,但他们团队上上下下都有股极客味,所以他们的商业化比起其他厂商就有点弱了。

但不管怎么说, DeepSeek 的成功也证明了,在 AI 这个赛道还存在的更多的可能。按以前的理解,想玩转 AI 后面没有个金主爸爸砸钱买显卡,压根就玩不转。但现在看起来,掌握了算力并不一定就是掌握了一切。

我们不妨期待下未来,更多的优化出现,让更多的小公司、初创企业都能进入 AI 领域,差评君总感觉,那才是真正的 AI 浪潮才对。

本文初摘录于:2025-01-04,最后校对或编辑于:2025-01-04

1
0

本页面二维码

© 版权声明:

本站资讯仅用作展示网友查阅,旨在传播网络正能量及优秀中华文化,版权归原作者所有。

如有侵权请 联系我们 予以删除处理。

其他事宜可 在线留言 ,无需注册且留言内容不在前台显示。

了解本站及如何分享收藏内容请至 关于我们。谢谢您的支持和分享。

猜您会读:

  • 马斯克宣传多年的脑机接口,被湖北医保局宣布了医疗定价

    2016年,马斯克成立了一家脑机接口公司,名叫Neuralink,宣称要打造出一种让人类大脑和外界进行信息交互的设备,如果此举真的能实现,那未来人类就能实现网友口中的赛博飞升。... 2025-04-06
  • “我们跑高速去试驾都在车上睡”,车企销售人员极力宣传智驾系统的强大功能,淡化风险

    “我们跑高速去试驾都在车上睡”,车企销售人员极力宣传智驾系统的强大功能,淡化风险

    4月1日,小米汽车智驾系统引发的事故在汽车行业内引发关注。资深汽车研发工程师周强(化名)在接受新黄河记者采访时指出,国内部分车企在智能驾驶系统的用户引导方面存在缺失... 2025-04-02
  • 胡锡进:美高调推出第六代战机“对决”中国,这是历史性比拼

    特朗普周五在白宫高调宣布,将第六代战机交由波音公司生产,并命名为F-47,以维持美国“下一代空中优势”(NGAD)。特朗普炫耀说,“这种隐形飞机几乎看不见,而且拥有前所未... 2025-03-23
  • 这个90后,干出了又一个“大疆”

    作者 | 姚西西来源 | 华商韬略(ID:hstl8888)33岁的刘靖康,等来了证监会的批复,不出意外,他将是科创板最年轻的董事长之一。他一手创立的影石创新(Insta360),用9年... 2025-03-21
  • 全面拆解!梁文锋和王兴兴背后的底层逻辑

    2025刚开年,来自杭州的两个年轻人,震撼了全球科技圈,到今天关于他们的讨论热度丝毫未减,成了这个春节当之无愧的“顶流”。他们就是宇树科技的创始人王兴兴与深度求索(Dee... 2025-03-17
  • TMD有病:天天用AI吓老百姓

    媒体并没带来更多有价值的思想;技术并没真正促进公平正义,当这两个怪物狼狈为奸时,资本站在旁边猥琐的窃笑,他们要收割百姓。现在的AI最大能耐就是吓唬,不学习就要淘汰,... 2025-03-14
  • 中国科学家研制出全球最强大的间谍摄像机

    据《南华早报》报道,中国科学家已经研发出一款基于激光的全球最强大摄像机,能够从近地轨道识别辨别人脸等微小细节。报道指出,这款摄像机由中国科学院航空航天信息研究所的... 2025-03-13
  • 比Deepseek还强的Manus(马牛死)爆火:打工人的天彻底塌了

    时代的列车太快,一不小心就闪了我的老腰。前几天我还信誓旦旦地说:AI只是工具,只是我们未来工作的协作者。没想到打脸来得这么快,Manus横空出世,彻底改变了我的想法。如果... 2025-03-12
  • “90后”王兴兴的演讲太燃了!时代不会辜负长期主义者

    3月10日,人民日报新媒体发布《献给春天的演讲:相信》。讲述人王兴兴是个“90后”,他开创了全球低成本高性能足式机器人的技术先河。他和团队研发的四足机器人已占全球近7成... 2025-03-11
  • 小心,AI开始胡说八道

    2025年2月,如果不是长期从事人口研究的中国人民大学教授李婷的公开辟谣,很多人都真诚地相信了一组数据——“中国80后累计死亡率为5.20%”。在社交媒体上,许多“80后”都曾... 2025-03-06
  • DeepSeek闯进更难的第二关

    研发模型的层面,大厂面对幻方并不占优势。但要比“切蛋糕”,幻方未必是他们的对手。本文来自微信公众号:略大参考,作者:杨知潮,编辑:原野,题图来自:AI生成作为开源软... 2025-02-27

名著精选