改款DeepSeek,乱了华为心态
创始人
2025-07-08 18:38:56
0

作者:源Byte 柯基的柯

当技术参数的相关性飙到0.927,行业直接炸了。

近期,有研究团队在GitHub上公开比对数据,指出华为盘古ProMoE与阿里Qwen-2.5 14B参数结构高度雷同,居然高达0.927,超过业内正常范围(通常低于0.7)。华为盘古团队迅速回应,强调其模型基于昇腾硬件优化,属于“殊途同归”,向来在舆论场上不输阵仗的阿里,却意外保持沉默。

截图来源于诺亚方舟实验室公号

无独有偶,就在上个月,月之暗面的Kimi-Dev-72B凭借60.4%的测试成绩惊艳亮相,因“Basemodel:Qwen2.5-72B”的标注被贴上“套壳”标签陷入争议。就在开发者们争论不休之时,外界发现“受害者”依旧是阿里,不禁发出如此疑问:这是微调技术的胜利,还是原创性匮乏的遮羞布?

而曾被寄予厚望的DeepSeek R2,迟迟未能面世,这款有望继续对世界顶级大模型持续施压的模型长期“跳票”,一定程度助推了国产大模型的技术标准“失焦”。

在一片R2“狼来了”的声音中,市场似乎在等待中逐渐失去耐心,正在让国产大模型的竞争,从技术比拼滑向资源内耗。

参数之争背后的技术迷局

华为盘古ProMoE与阿里Qwen-2.5 14B的“0.927相似度”,直接剖开了大模型研发的黑箱。

研究团队通过比对注意力参数分布,发现两者结构相似性远超行业常态。华为坚称其模型基于昇腾硬件优化,属于“异构架构的殊途同归”;阿里则保持沉默,但开源社区已涌现对代码复用合规性的质疑。

然而,技术细节的争议很快滑向商业博弈的泥潭。

盘古团队紧急发布技术白皮书,强调其MoE架构的专利布局;阿里则加速推进Qwen-3.0迭代,似乎在用版本升级对冲舆论风险。一位不愿具名的芯片工程师透露:“参数结构的趋同,本质上是算力军备竞赛下的技术妥协。”

开发者社区并不买账,用户 @HonestAGI 通过 “LLM 指纹” 技术反向验证,结果与原始研究高度吻合。技术趋同是否等同于抄袭?这一问题在开源社区引发激烈辩论。

支持华为的声音认为,大模型领域的技术重叠难以避免,关键在于优化和落地。昇腾生态的拥趸特别指出,盘古的动态专家网络设计解决了分布式训练负载均衡的难题,是实打实的创新。

但反对者,反对者翻出匿名爆料,称部分盘古模型存在“洗水印”嫌弃——即对开源模型进行微调后重新包装。尽管爆料未提供具体证据,但阿里通义千问的开源协议中明确要求衍生模型需标注来源,这一细节让争议更加扑朔迷离。

从技术角度看,参数结构的相似性可能源于训练数据的重叠或优化目标的趋同。但问题的核心在于,当两家巨头在公开场合强调“自主创新”时,这种高度一致性是否违背了开源协议的精神?

华为盘古团队的回应中,一个细节值得玩味:他们提到“参考了业界开源实践”,但未具体说明哪些实践。这种模糊表述让外界难以判断其行为的边界。而阿里的沉默,则被解读为一种战术性回避,避免卷入公开论战。

一位长期观察AI行业的分析师表示:“参数之争的背后,是国产大模型在高速发展中的身份焦虑——既要追赶国际巨头,又要在本土竞争中脱颖而出。”这种焦虑,或许正是技术迷局的真正底色。

微调红利与创新困局

华为与阿里的纠纷并非孤立事件,就在上个月,月之暗面与阿里就曾陷入类似的纠纷。

就在外界认为月之暗面要在国产大模型内卷中掉队之时,其推出的Kimi-Dev-72B在SWE-bench测试中一骑绝尘。

该模型通过1500亿专项数据和数百万GitHub工单优化,将代码任务准确率提升至60.4%。在当时,它刷新了开源模型的纪录,将包括DeepSeek在内的众多竞争对手甩在了身后。

不过好景不长,开发者们很快发现,Kimi-Dev-72B明确标注了其基础模型为Qwen/Qwen2.5-72B,随后,开发者社区的分歧迅速蔓延:有人将其视为“站在巨人肩膀上”的微调典范,也有人质疑这是披着开源外衣的“技术组装”。

微调本是行业常态,但标注的透明性未能消弭质疑。月之暗面官方解释,他们以Qwen 2.5-72B为起点,收集了数百万个GitHub问题单和PR提交作为中期训练数据集,其核心创新点在于采用了大规模强化学习技术。

争议的核心并非技术本身,而是创新的边界。Kimi-Dev-72B的表现确实亮眼,但它的成功是否依赖于基座模型的原始能力?有匿名开发者尖锐指出:“如果微调就能达到顶尖水平,原创的价值在哪里?”

开源生态的规则正在被重新定义。阿里通过协议更新试图维护技术主权,而月之暗面则用性能说话,试图证明微调并非简单的“套壳”。市场反应两极分化:一部分企业开始效仿这种快速迭代的模式,另一部分则呼吁回归原创研发。

值得注意的是,Kimi-Dev-72B的优化框架确实有其独特性,它结合了BugFixer和TestWriter角色,通过强化学习精准提升代码修复和测试编写的效率。

但这种优化是否足以定义“创新”,仍是一个悬而未决的问题。可见,行业的焦虑感正在加剧,当微调成为捷径,原创研发的成本和风险是否会被边缘化?对此,一位风投机构合伙人给出解释:“资本更倾向于快速见效的项目,原创大模型的投入周期太长。”

失序的竞争

R1的辉煌已成往事,R2的难产却让市场陷入焦灼。DeepSeek曾以低成本、高性能对标OpenAI,一度成为全球开源推理类模型的标杆。

截图来源于DeepSeek官网

传闻在今年4月发布的R2,时至今日也未能问世,仅仅在5月末推出了一个R1的改款。

至少从6月以来的两起“套壳”事件来看,改款的R1模型难以承担定义行业标准的重任。

有媒体爆料称,因公司创始人梁文锋对性能的极致追求和H20芯片短缺被迫延期,根据爆料的内部文件显示,其1.2万亿参数的MoE设计对标GPT-4Turbo,但训练成本控制成为致命瓶颈。

技术瓶颈之外,行业正面临更严峻的信任危机。R1曾以纯强化学习训练打破技术范式,而R2的缺席让华为、阿里有望抢占生态位,有风投机构对源Byte表示:“当所有人都忙着给模型‘镀金’,真正的创新反而成了奢侈品。”

DeepSeek如今已经成为了国产大模型的代名词,其R1模型具备定义行业标准的意义,但长达半年多的技术缺位、R2接连跳票后,难免有人想取而代之。“对于一线互联网大厂来说,能够定义行业标准、引领行业前进方向,才是他们最为看重的。”上述风投机构坦言。

简单点理解,就是DeepSeek R2的跳票,或变相造成了国产大模型的竞争失焦。

华为和阿里在R2真空期内动作频频,华为盘古ProMoE的争议尚未平息,阿里已悄然推进Qwen-3.0的迭代。两家巨头的技术路径虽有差异,但核心逻辑仍是参数与性能的堆砌,难怪不少匿名开发者都在调侃:“大家都在玩‘谁的数字更大’,没人关心技术是否真的进步。”

据部分开发者向源Byte爆料称,部分国产智能体专注“出海”,而非针对国内市场开发,除了国内市场尚未形成付费习惯,还有相当一部分的原因是,国产大模型仅仅在参数上追平或赶超海外模型,但在具体的开发细节上,仍存在一定差距,直接导致开发成本的飙升。

与此同时,芯片短缺加剧了这场混乱。英伟达H20的供应紧张,让依赖高端硬件的企业陷入被动。DeepSeek的延迟或许只是开始,更多中小厂商可能因资源不足被迫退出竞争。

即便如此,市场对R2的期待仍未消退。传闻称其混合专家架构(MoE)将成本大大降低,但具体表现仍是未知数。若R2能如期突破,或许能重新点燃行业的信心;若继续延迟,国产大模型的竞争格局或将改写。

耐人寻味的是,这场延迟反而让市场看清了行业的真实状态,技术路径趋同、创新乏力、资源垄断——这些问题在R2的缺席中被放大。一位从业者无奈表示:“我们需要的不是另一个参数怪兽,而是能真正解决问题的工具。”

相关内容

台当局鼓吹可在“半导体民主...
中新网12月24日电 12月24日,国台办举行例行新闻发布会。会上...
2025-12-24 11:37:16
封装与散热双线并行 海目星...
一手锁定芯片封装核心的PCB/HDI激光钻孔赛道,一手抢占液冷配套...
2025-12-24 11:37:03
原创 ...
目前在存储芯片领域,其实主要是两种芯片,一种是DRAM,一种是NA...
2025-12-24 11:36:50
龙腾光电:12月23日融资...
证券之星消息,12月23日,龙腾光电(688055)融资买入98....
2025-12-24 11:36:42
两融余额突破2.53万亿,...
截至2025年12月23日,市场两融余额为25315.63亿元,较...
2025-12-24 11:36:31
东方晶源以AI赋能破局良率...
2025-12-24 10:35:21 作者:狼叫兽 近日,备受瞩...
2025-12-24 11:36:24
健信超导:ROE逆势增长凸...
《金基研》 天涯/作者 杨起超 时风/编审 在全球医疗健康需求持续...
2025-12-24 11:10:52
健信超导许建益:硬科技创业...
“硬科技创业既是技术战,也是持久战。唯有以初心为舵、以坚韧为帆、以...
2025-12-24 11:10:46
【ETF动向】12月23日...
证券之星消息,12月23日,鹏华国证半导体芯片ETF基金(1598...
2025-12-24 11:10:45

热门资讯

台当局鼓吹可在“半导体民主供应... 中新网12月24日电 12月24日,国台办举行例行新闻发布会。会上,有记者问:近日,民进党当局派员参...
两融余额突破2.53万亿,电子... 截至2025年12月23日,市场两融余额为25315.63亿元,较前一交易日增加149.23亿元。分...
健信超导许建益:硬科技创业需守... “硬科技创业既是技术战,也是持久战。唯有以初心为舵、以坚韧为帆、以格局为岸,才能穿越行业周期,实现技...
ETF资金榜 | 半导体设备E... 2025年12月23日,半导体设备ETF基金(159327.SZ)收涨1.46%,成交6475.50...
港股中芯国际、华虹半导体均涨超... 港股中芯国际、华虹半导体均涨超4%。
ETF融资榜 | 科创芯片50... 2025年12月23日,科创芯片50ETF(588750.SH)收涨0.79%,成交1.59亿元。获...
港股速报 | 恒指小幅高开 智... 今日(12月24日),港股市场迎来小幅高开,主要指数呈现微涨态势,市场分化特征初显。截至开盘,恒生指...
埃科光电:12月23日融资买入... 证券之星消息,12月23日,埃科光电(688610)融资买入373.47万元,融资偿还209.57万...
2026浙教版八年级数学上册电... 为帮助初二学生更好地预习和复习数学知识,快速了解数学教材的具体内容,我们特别整理了2026浙教版八年...
银河电子(002519)12月... 证券之星消息,截至2025年12月23日收盘,银河电子(002519)报收于5.61元,下跌7.58...