我是万万没想到,就在西方还沉浸在圣诞假期,疯狂 “ 过年 ” 的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。
紧接着又来了个国产大模型 DeepSeek,甚至有股做空英伟达的味道。
具体咋回事儿,咱给你唠明白咯。
前几天, DeepSeek 刚刚公布最新版本 V3 ,注意,与大洋彼岸那个自称 Open ,却越来越 Close 的公司产品不同,这个 V3 是开源的。
不过开源还不是他最重要的标签, DeepSeek-V3 ( 以下简称 V3 )还兼具了性能国际一流,技术力牛逼,价格击穿地心三个特点,这一套不解释连招打得业内大模型厂商们都有点晕头转向了。
V3 一发布, OpenAI 创始成员 Karpathy 直接看嗨了,甚至发出了灵魂提问,难道说大模型们压根不需要大规模显卡集群?
我估计老黄看到这头皮都得发麻了吧。
同时, Meta 的 AI 技术官也是直呼 DeepSeek 的成果伟大。
知名 AI 评测博主 Tim Dettmers ,直接吹起来了,表示 DeepSeek 的处理优雅 “elegant” 。
而在这些技术出身的人,看着 V3 的成绩送去赞扬的时候,也有些人急了。比如奥特曼就搁那说,复制比较简单啦,很难不让人觉得他在内涵 DeepSeek 。
更有意思的是,做到这些的公司既不是什么大厂,也不是纯血 AI 厂商。
DeepSeek 公司中文名叫深度求索,他们本来和 AI 没任何关系。
就在大模型爆火之前,他们其实是私募机构幻方量化的一个团队。
而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。
早在 2019 年,幻方就投资 2 亿元搭建了自研深度学习训练平台 “ 萤火虫一号 ” ,到了 2021 年已经买了足足 1 万张英伟达 A100 显卡的算力储备了。
要知道,这个时候大模型没火,万卡集群的概念更是还没出现。而正是凭借这部分硬件储备,幻方才拿到了 AI 大模型的入场券,最终卷出了现在的 V3 。你说好好的一个量化投资领域的大厂,干嘛要跑来搞 AI 呢?
深度求索的 CEO 梁文锋在接受暗涌采访的时候给大家聊过,并不是什么看中 AI 前景。
而是在他们看来, “ 通用人工智能可能是下一个最难的事之一 ” ,对他们来说, “ 这是一个怎么做的问题,而不是为什么做的问题。 ”
就是抱着这么股 “ 莽 ” 劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲 V3 有啥特别的地方。首先就是性能强悍,目前来看,在 V3 面前,开源模型几乎没一个能打的。
还记得去年年中,小扎的 Meta 推出模型 Llama 3.1 ,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在 V3 手里,基本是全面落败。
而在各种大厂手里的闭源模型,那些大家耳熟能详的什么 GPT-4o 、 Claude 3.5 Sonnet 啥的, V3 也能打得有来有回。
你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。
所以在圈子里有了一个新的计量单位 “GPU 时 ” ,也就是用了多少块 GPU 花了多少个小时的训练时间。
GPU 时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。前面说的此前开源模型王者, Llama 3.1 405B ,训练周期花费了 3080 万 GPU 时。
可性能更强的 V3 ,只花了不到 280 万 GPU 时。以钱来换算, DeepSeek 搞出 V3 版本,大概只花了 4000 多万人民币。而 Llama 3.1 405B 的训练期间, Meta 光是在老黄那买了 16000 多个 GPU ,保守估计至少都花了十几亿人民币。
至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。
你别以为 DeepSeek 靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。为了搞清楚 DeepSeek 的技术咋样,咱们特地联系了语核科技创始人兼 CTO 池光耀,他们主力发展企业向的 agent 数字员工,早就是 DeepSeek 的铁粉了。
池光耀告诉我们,这次 V3 的更新主要是 3 个方面的优化,分别是通信和显存优化、推理专家的负载均衡以及FP8 混合精度训练。
各个部分怎么实现的咱也就不多说了,总体来说,大的整体结构没啥变化,更多的像是咱们搞基建的那一套传统艺能,把工程做得更高效、更合理了。
首先, V3 通过通信和显存优化,极大幅度减少了资源空闲率,提升了利用效率。
而推理专家( 具备推理能力的 AI 系统或算法,能够通过数据分析得出结论 )的负载均衡就更巧妙了,一般的大模型,每次启动,必须把所有专家都等比例放进工位( 显存 ),但真正回答用户问题时,十几个专家里面只用到一两个,剩下的专家占着工位( 显存 )摸鱼,也干不了别的事情。
而 DeepSeek 把专家分成热门和冷门两种,热门的专家,复制一份放进显存,处理热门问题;冷门的专家也不摸鱼,总是能被分配到问题。
FP8 混合精度训练则是在之前被很多团队尝试无果的方向上拓展了新的一步,通过降低训练精度以降低训练时算力开销,但却神奇地保持了回答质量基本不变。也正是这些技术上的革新,才得到了大模型圈的一致好评。
通过一直以来的技术更新迭代, DeepSeek 收获的回报也是相当惊人的。他们 V3 版本推出后,他们的价格已经是低到百万tokens几毛钱、几块钱。他们甚至还在搞了个新品促销活动,到明年 2 月 8 号之前,在原来低价的基础上再打折。
而一开始提到同样开源的 Claude 3.5 Sonnet ,每百万tokens,至少都得要几十块以上。。。更要命的是,这对 DeepSeek 来说已经是常规套路了。
早在去年初,DeepSeek V2 模型发布后,就靠着一手低价,被大家叫做了AI 界拼多多。他们还进一步引发了国内大模型公司的价格战,诸如智谱、字节、阿里、百度、腾讯等大厂纷纷降价。
池光耀也告诉我们,他们公司早在去年 6 、 7 月份就开始用上了 DeepSeek ,当时也有国内其他一些大模型厂商来找过他们。但和 DeepSeek 价格差不多的,模型 “ 又太笨了,跟 DeepSeek 不在一个维度 ” ;如果模型能力和 DeepSeek 差不多,那个价格 “ 基本都是 10 倍以上 ” 。
更夸张的是,由于技术 “ 遥遥领先 ” 带来的降本增效,哪怕 DeepSeek 卖得这么便宜,根据他们创始人梁文峰所说,他们公司还是赚钱的。。。是不是有种隔壁比亚迪搞 998 ,照样财报飘红的味道了。
不过对于我们普通用户来说, DeepSeek 似乎也有点偏门了。因为他的强项主要是在推理、数学、代码方向,而多模态和一些娱乐化的领域不是他们的长处。
而且眼下,尽管 DeepSeek 说自己还是赚钱的,但他们团队上上下下都有股极客味,所以他们的商业化比起其他厂商就有点弱了。
但不管怎么说, DeepSeek 的成功也证明了,在 AI 这个赛道还存在的更多的可能。按以前的理解,想玩转 AI 后面没有个金主爸爸砸钱买显卡,压根就玩不转。但现在看起来,掌握了算力并不一定就是掌握了一切。
我们不妨期待下未来,更多的优化出现,让更多的小公司、初创企业都能进入 AI 领域,差评君总感觉,那才是真正的 AI 浪潮才对。
本文初摘录于:2025-01-04,最后校对或编辑于:2025-01-04
本页面二维码
© 版权声明:
本站资讯仅用作展示网友查阅,旨在传播网络正能量及优秀中华文化,版权归原作者所有。
如有侵权请 联系我们 予以删除处理。
其他事宜可 在线留言 ,无需注册且留言内容不在前台显示。
了解本站及如何分享收藏内容请至 关于我们。谢谢您的支持和分享。
猜您会读:
- 2016年,马斯克成立了一家脑机接口公司,名叫Neuralink,宣称要打造出一种让人类大脑和外界进行信息交互的设备,如果此举真的能实现,那未来人类就能实现网友口中的赛博飞升。... 2025-04-06
-
“我们跑高速去试驾都在车上睡”,车企销售人员极力宣传智驾系统的强大功能,淡化风险
4月1日,小米汽车智驾系统引发的事故在汽车行业内引发关注。资深汽车研发工程师周强(化名)在接受新黄河记者采访时指出,国内部分车企在智能驾驶系统的用户引导方面存在缺失... 2025-04-02 - 特朗普周五在白宫高调宣布,将第六代战机交由波音公司生产,并命名为F-47,以维持美国“下一代空中优势”(NGAD)。特朗普炫耀说,“这种隐形飞机几乎看不见,而且拥有前所未... 2025-03-23
- 作者 | 姚西西来源 | 华商韬略(ID:hstl8888)33岁的刘靖康,等来了证监会的批复,不出意外,他将是科创板最年轻的董事长之一。他一手创立的影石创新(Insta360),用9年... 2025-03-21
- 2025刚开年,来自杭州的两个年轻人,震撼了全球科技圈,到今天关于他们的讨论热度丝毫未减,成了这个春节当之无愧的“顶流”。他们就是宇树科技的创始人王兴兴与深度求索(Dee... 2025-03-17
- 媒体并没带来更多有价值的思想;技术并没真正促进公平正义,当这两个怪物狼狈为奸时,资本站在旁边猥琐的窃笑,他们要收割百姓。现在的AI最大能耐就是吓唬,不学习就要淘汰,... 2025-03-14
- 据《南华早报》报道,中国科学家已经研发出一款基于激光的全球最强大摄像机,能够从近地轨道识别辨别人脸等微小细节。报道指出,这款摄像机由中国科学院航空航天信息研究所的... 2025-03-13
-
比Deepseek还强的Manus(马牛死)爆火:打工人的天彻底塌了
时代的列车太快,一不小心就闪了我的老腰。前几天我还信誓旦旦地说:AI只是工具,只是我们未来工作的协作者。没想到打脸来得这么快,Manus横空出世,彻底改变了我的想法。如果... 2025-03-12 - 3月10日,人民日报新媒体发布《献给春天的演讲:相信》。讲述人王兴兴是个“90后”,他开创了全球低成本高性能足式机器人的技术先河。他和团队研发的四足机器人已占全球近7成... 2025-03-11
- 2025年2月,如果不是长期从事人口研究的中国人民大学教授李婷的公开辟谣,很多人都真诚地相信了一组数据——“中国80后累计死亡率为5.20%”。在社交媒体上,许多“80后”都曾... 2025-03-06
- 研发模型的层面,大厂面对幻方并不占优势。但要比“切蛋糕”,幻方未必是他们的对手。本文来自微信公众号:略大参考,作者:杨知潮,编辑:原野,题图来自:AI生成作为开源软... 2025-02-27
- 4月1日,税务部门公布5起偷逃税款被处罚案件。悬殊的纳税申报背后隐藏的“玄机”——揭秘网络主播乐传曲偷税案近期,国家税务总局上海市税务局第四稽查局依法查处了一起网络主... 2025-04-03
-
内蒙古党委书记:口头汇报能说清的,不用费时费力制作PPT、小视频
3月1日,内蒙古党校(行政学院)举行2025年春季学期开学典礼,自治区党委书记、内蒙古党校(行政学院)校长(院长)孙绍骋出席并讲话。近日,由内蒙古自治区党委主办的《实践... 2025-04-02 - 上任两个月以来,特朗普不断向俄罗斯发射“甜蜜”讯号。普京感受到了。但他表面上说愿意和特朗普携手解决俄乌冲突,实际上却几乎没有做出任何让步。乌克兰斯拉夫扬斯克被的一... 2025-04-02
- 王毅谈中美贸易战:若美继续搞各种讹诈 中方必将坚决反制当地时间2025年4月1日,中共中央政治局委员、外交部长王毅在应邀对俄罗斯进行正式访问期间接受了“今日俄罗斯”国际... 2025-04-02
- 从4月1日开始,中国人民解放军东部战区组织陆海空火等兵力位台岛周边开展联合演训。东部战区新闻发言人施毅陆军大校4月1日表示,4月1日开始,中国人民解放军东部战区组织陆军... 2025-04-02
- 特朗普:普京可能在拖延,谋求西方更多让步参考消息网3月27日报道 据美国《华尔街日报》网站3月26日报道,特朗普总统承认,他推动的快速结束俄乌冲突的行动遇到了障碍。他说... 2025-03-31
- 本文是蒋纬国先生的札记体文章(选自《蒋纬国口述自传》中国大百科全书出版社 2016),记录了从抗日战争时期到内战后国民党退居统治台湾其本人亲身经历的几件事情,从中可以... 2025-03-29
-
新华社马尼拉3月27日电(记者张怡晟 聂晓阳)菲律宾参议院外交关系委员会主席、菲总统马科斯的姐姐伊梅·马科斯在27日举行的新闻发布会上说,前总统杜特尔特在本月11日被逮... 2025-03-29
-
泽连斯基:乌克兰不会将以往美国军援视为债务,但可为未来援助提供补偿
【环球网报道】据《乌克兰真理报》援引《欧洲真理报》报道,乌克兰总统泽连斯基当地时间3月28日在新闻发布会上表示,乌克兰不准备在与美国达成的矿产协议框架内,将过去几年美... 2025-03-29 - 随着越来越多消费者开始质疑,一纸检测报告引发的食品安全风暴正在经历戏剧性转折。0113家送检,为何仅1家幸免2025年3月,《消费者报道》对市售13款“零添加”酱油的突击检测... 2025-03-28