我是万万没想到,就在西方还沉浸在圣诞假期,疯狂 “ 过年 ” 的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。
紧接着又来了个国产大模型 DeepSeek,甚至有股做空英伟达的味道。
具体咋回事儿,咱给你唠明白咯。
前几天, DeepSeek 刚刚公布最新版本 V3 ,注意,与大洋彼岸那个自称 Open ,却越来越 Close 的公司产品不同,这个 V3 是开源的。
不过开源还不是他最重要的标签, DeepSeek-V3 ( 以下简称 V3 )还兼具了性能国际一流,技术力牛逼,价格击穿地心三个特点,这一套不解释连招打得业内大模型厂商们都有点晕头转向了。
V3 一发布, OpenAI 创始成员 Karpathy 直接看嗨了,甚至发出了灵魂提问,难道说大模型们压根不需要大规模显卡集群?
我估计老黄看到这头皮都得发麻了吧。
同时, Meta 的 AI 技术官也是直呼 DeepSeek 的成果伟大。
知名 AI 评测博主 Tim Dettmers ,直接吹起来了,表示 DeepSeek 的处理优雅 “elegant” 。
而在这些技术出身的人,看着 V3 的成绩送去赞扬的时候,也有些人急了。比如奥特曼就搁那说,复制比较简单啦,很难不让人觉得他在内涵 DeepSeek 。
更有意思的是,做到这些的公司既不是什么大厂,也不是纯血 AI 厂商。
DeepSeek 公司中文名叫深度求索,他们本来和 AI 没任何关系。
就在大模型爆火之前,他们其实是私募机构幻方量化的一个团队。
而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。
早在 2019 年,幻方就投资 2 亿元搭建了自研深度学习训练平台 “ 萤火虫一号 ” ,到了 2021 年已经买了足足 1 万张英伟达 A100 显卡的算力储备了。
要知道,这个时候大模型没火,万卡集群的概念更是还没出现。而正是凭借这部分硬件储备,幻方才拿到了 AI 大模型的入场券,最终卷出了现在的 V3 。你说好好的一个量化投资领域的大厂,干嘛要跑来搞 AI 呢?
深度求索的 CEO 梁文锋在接受暗涌采访的时候给大家聊过,并不是什么看中 AI 前景。
而是在他们看来, “ 通用人工智能可能是下一个最难的事之一 ” ,对他们来说, “ 这是一个怎么做的问题,而不是为什么做的问题。 ”
就是抱着这么股 “ 莽 ” 劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲 V3 有啥特别的地方。首先就是性能强悍,目前来看,在 V3 面前,开源模型几乎没一个能打的。
还记得去年年中,小扎的 Meta 推出模型 Llama 3.1 ,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在 V3 手里,基本是全面落败。
而在各种大厂手里的闭源模型,那些大家耳熟能详的什么 GPT-4o 、 Claude 3.5 Sonnet 啥的, V3 也能打得有来有回。
你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。
所以在圈子里有了一个新的计量单位 “GPU 时 ” ,也就是用了多少块 GPU 花了多少个小时的训练时间。
GPU 时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。前面说的此前开源模型王者, Llama 3.1 405B ,训练周期花费了 3080 万 GPU 时。
可性能更强的 V3 ,只花了不到 280 万 GPU 时。以钱来换算, DeepSeek 搞出 V3 版本,大概只花了 4000 多万人民币。而 Llama 3.1 405B 的训练期间, Meta 光是在老黄那买了 16000 多个 GPU ,保守估计至少都花了十几亿人民币。
至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。
你别以为 DeepSeek 靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。为了搞清楚 DeepSeek 的技术咋样,咱们特地联系了语核科技创始人兼 CTO 池光耀,他们主力发展企业向的 agent 数字员工,早就是 DeepSeek 的铁粉了。
池光耀告诉我们,这次 V3 的更新主要是 3 个方面的优化,分别是通信和显存优化、推理专家的负载均衡以及FP8 混合精度训练。
各个部分怎么实现的咱也就不多说了,总体来说,大的整体结构没啥变化,更多的像是咱们搞基建的那一套传统艺能,把工程做得更高效、更合理了。
首先, V3 通过通信和显存优化,极大幅度减少了资源空闲率,提升了利用效率。
而推理专家( 具备推理能力的 AI 系统或算法,能够通过数据分析得出结论 )的负载均衡就更巧妙了,一般的大模型,每次启动,必须把所有专家都等比例放进工位( 显存 ),但真正回答用户问题时,十几个专家里面只用到一两个,剩下的专家占着工位( 显存 )摸鱼,也干不了别的事情。
而 DeepSeek 把专家分成热门和冷门两种,热门的专家,复制一份放进显存,处理热门问题;冷门的专家也不摸鱼,总是能被分配到问题。
FP8 混合精度训练则是在之前被很多团队尝试无果的方向上拓展了新的一步,通过降低训练精度以降低训练时算力开销,但却神奇地保持了回答质量基本不变。也正是这些技术上的革新,才得到了大模型圈的一致好评。
通过一直以来的技术更新迭代, DeepSeek 收获的回报也是相当惊人的。他们 V3 版本推出后,他们的价格已经是低到百万tokens几毛钱、几块钱。他们甚至还在搞了个新品促销活动,到明年 2 月 8 号之前,在原来低价的基础上再打折。
而一开始提到同样开源的 Claude 3.5 Sonnet ,每百万tokens,至少都得要几十块以上。。。更要命的是,这对 DeepSeek 来说已经是常规套路了。
早在去年初,DeepSeek V2 模型发布后,就靠着一手低价,被大家叫做了AI 界拼多多。他们还进一步引发了国内大模型公司的价格战,诸如智谱、字节、阿里、百度、腾讯等大厂纷纷降价。
池光耀也告诉我们,他们公司早在去年 6 、 7 月份就开始用上了 DeepSeek ,当时也有国内其他一些大模型厂商来找过他们。但和 DeepSeek 价格差不多的,模型 “ 又太笨了,跟 DeepSeek 不在一个维度 ” ;如果模型能力和 DeepSeek 差不多,那个价格 “ 基本都是 10 倍以上 ” 。
更夸张的是,由于技术 “ 遥遥领先 ” 带来的降本增效,哪怕 DeepSeek 卖得这么便宜,根据他们创始人梁文峰所说,他们公司还是赚钱的。。。是不是有种隔壁比亚迪搞 998 ,照样财报飘红的味道了。
不过对于我们普通用户来说, DeepSeek 似乎也有点偏门了。因为他的强项主要是在推理、数学、代码方向,而多模态和一些娱乐化的领域不是他们的长处。
而且眼下,尽管 DeepSeek 说自己还是赚钱的,但他们团队上上下下都有股极客味,所以他们的商业化比起其他厂商就有点弱了。
但不管怎么说, DeepSeek 的成功也证明了,在 AI 这个赛道还存在的更多的可能。按以前的理解,想玩转 AI 后面没有个金主爸爸砸钱买显卡,压根就玩不转。但现在看起来,掌握了算力并不一定就是掌握了一切。
我们不妨期待下未来,更多的优化出现,让更多的小公司、初创企业都能进入 AI 领域,差评君总感觉,那才是真正的 AI 浪潮才对。
本文初摘录于:2025-01-04,最后校对或编辑于:2025-01-04
本页面二维码
© 版权声明:
本站资讯仅用作展示网友查阅,旨在传播网络正能量及优秀中华文化,版权归原作者所有。
如有侵权请 联系我们 予以删除处理。
其他事宜可 在线留言 ,无需注册且留言内容不在前台显示。
了解本站及如何分享收藏内容请至 关于我们。谢谢您的支持和分享。
猜您会读:
- 生成式人工智能大模型制作的人形机器人图片。AI制作近年来,随着人工智能技术的快速发展,具身智能逐渐成为备受瞩目的前沿领域。与传统人工智能相比,具身智能更注重通过与环... 2025-01-04
- fdgs 2025-01-01
- 自 TikTok 在美受到挑战以来,多任总统、国会和各地州政府对它掀起了一轮又一轮的攻击,这波攻击随着几天前,美国华盛顿特区巡回上诉法院对 TikTok 案的判决公布,而进入... 2024-12-13
- 百度的核心板块—广告业务,传来隐忧。根据最新财报显示,今年第三季度,百度的在线广告收入同比下滑4%。至此百度广告业务增速已经连续3个季度下滑,且连续2个季度出现负增长... 2024-12-02
- 随着人工智能技术的飞速发展,深度伪造技术逐渐进入我们的生活,在带来惊喜和便利的同时,也暴露出一系列风险隐患,如不注意防范,甚至可能危害国家安全。眼见未必为实,耳听... 2024-11-26
- 有些自媒体说张一鸣退休了,这个喊话对象错了。如果做人作文到这个程度,那起码的廉耻都没有了。我们必须要明确的一点是,无论从任何角度讲,张一鸣都是字节这个庞大机构的创... 2024-11-21
- 华为创始人兼CEO任正非与ICPC(国际大学生程序设计竞赛)主席、教练及获奖选手座谈会纪要曝光,座谈时间是今年10月14日。在座谈中,针对不同国家选手的提问,任正非谈到了不同国... 2024-10-31
- AI 的疯狂飞跃——你可能不想被甩在后面想象一下,有一天醒来发现人工智能在一夜之间彻底革新了世界。听起来遥不可及?其实比你想象的更近。很多人并没有意识到 AI 发展的... 2024-10-19
- 黄晓明今年46岁了,无论他有多迷恋偶像剧霸总人设,群众也不会再惯着他了。一个网红女朋友,又一次把这位影星送上了舆论高地。人到中年,一次官宣换来终生内向。网友不仅没有... 2024-10-17
- 财联社10月10日讯,据中山大学微信公众号,10月9日,中山大学医学院施莽教授团队与阿里云李兆融团队在《细胞》杂志(Cell)发表论文报告了180个超群、超过16万种全球RNA病毒的... 2024-10-11
- 导读:国务院办公厅公开了《关于严格规范涉企行政检查的意见》,坚决遏制乱检查,切实减轻企业负担。作者 | 第一财经 陈益刊针对行政检查事项多、频次高、随意性大,以及过... 2025-01-04
- 我是万万没想到,就在西方还沉浸在圣诞假期,疯狂 “ 过年 ” 的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊... 2025-01-04
- 国内部分:1月2日,A股“开门绿”,降近90点。不知又有多少韭菜被收割。 2025-01-03
-
2023到2024两岸喜讯:大陆要动手了?日菲印3国计划从台岛撤侨,台军想要“先发制人”
“台海风云突变,潮起潮落皆是伏笔,历史车轮已在前行。”2023年4月:蔡英文“窜美”触发波澜蔡英文的“窜美”行程,再度挑衅大陆,公然向美国示好,试图借助外力推动所谓的“... 2025-01-01 -
两岸统一时间已定?国台办给出11字答案,赖清德狗急跳墙:寻求替代九二共识新论述
近日有记者提问:大陆学者在《外交事务》期刊刊文称,大陆未来4年内的注意力集中在重振经济上,不会制定统一台湾的时间表,请问有何评论?国台办给出11字答案“祖国必须统一也... 2024-12-31 - 12月21日,上海市公安局浦东分局通报,金恪集团、艳阳度假等已被立案侦查,罪名是涉嫌非法集资。据报道,这则案件涉及的金额超过了百亿元,受害人可能过万,且几乎都是老人。... 2024-12-29
-
阿塞拜疆飞机坠毁前“最后时刻”曝光,机长即将退休,乘务长的“最后一次飞行”
据新华社报道,阿塞拜疆航空公司27日宣布,初步调查结果显示,“外部物理和技术干扰”是导致25日客机失事的一个因素。25日,阿塞拜疆航空公司一架从巴库飞往俄罗斯格罗兹尼的... 2024-12-28 - 近日,按照公安部指挥部署,河北、四川、内蒙古、河南等多地公安机关开展集中统一收网行动,成功打掉一个以吕某、李某行、张某为首,通过非法安装“偷拍摄像头”、自导自演炒... 2024-12-28
-
全国人大:陆军原副司令员尤海涛、南部战区原副司令员李鹏程等,涉严重违纪违法
官方披露:陆军原副司令员尤海涛、南部战区原副司令员李鹏程等,涉严重违纪违法来源:政事儿第十四届全国人民代表大会常务委员会代表资格审查委员会关于个别代表的代表资格的... 2024-12-26 - 你的个人养老金账户近期“被开通”了吗?澎湃公众互动平台“服务湃”、黑猫投诉平台、消费保投诉平台近日接获大量消费者反映称,他们被银行开通个人养老金账户,但本人对此并... 2024-12-22