官方热点榜-视频列表
视频
达人
点赞量
deepseek v4发布 大A 先跌为敬 今天deepseek v4发布了,采用是全华班的算力支持,证明全套国产算力ai也能用,英伟达看似牢不可破的CUDA生态终于被撬开了一个裂缝,就如同鸿蒙系统打破微软、IOS和安卓垄断一样。算力未来可能也要有中美两条路径的股市了,大A今天算力版块先跌为敬。#大A
蓝业经纬
0.0w
DeepSeek V4 下周发布?三项架构组件曝光 DeepSeek V4 下周就来?4月19日,普林斯顿 AI Lab 研究员 Yifan Zhang 在 X 上发了一条帖子——"V4,下周",同时曝光了三项核心架构组件。这次信号密度是有史以来最高的,可能真的要来了。
大家好,我是 AI 学习的老章。
先说可信度。Yifan Zhang 北大元培、清华姚班出来的,虽然他本人不在 DeepSeek,但五个信号一起指向同一个方向:梁文锋在内部确认了 4 月下旬发布,Polymarket 预测市场给出 75% 概率,DeepSeek 网页端已经上线快速模式和专家模式在预热,DeepGEMM 4 月 16 日大更新,新增了 Mega MoE、FP8xFP4 GEMM 这些组件,跟 V4 架构传闻高度吻合。
曝光的三项架构组件,逐个说一下。
第一,稀疏 MQA。不是每个 token 都去看全部上下文,只看最相关的那部分,把百万级长上下文的算力复杂度从二次方压到接近线性。配套还有一个 Lightning Indexer,几百页文档 20 毫秒以内检索完。
第二,融合 MoE 大核。MoE 路由判断和矩阵乘法原本是两步操作,中间有显存搬运的开销,这次直接融合进同一个 GPU kernel,推理延迟的优化非常直接。
第三,mHC,流形约束超连接。传统残差连接的泛化版本,用多条可学习的加权通路替代单一加法。早期版本信号放大会失控,最高到 3000 倍,训练直接崩。DeepSeek 用 Sinkhorn-Knopp 算法把它约束在 2 倍以内,额外开销只有 6.7%,但换来的是万亿参数级别的稳定训练能力。
目前已知的 V4 规格:约 1 万亿参数 MoE,百万级上下文,首次全面适配华为昇腾国产算力,Apache 2.0 开源,API 定价约每百万 token 0.3 美元,是 GPT 旗舰模型的十分之一。
之前已经跳票两次,但这次信号密度是最高的。如果下周真的发布,那就是国产 AI 第一个万亿参数开源模型,拭目以待。
武林热点
0.0w