官方热点榜-视频列表

视频

达人

点赞量

DeepSeek V4 下周发布?三项架构组件曝光 DeepSeek V4 下周就来?4月19日,普林斯顿 AI Lab 研究员 Yifan Zhang 在 X 上发了一条帖子——"V4,下周",同时曝光了三项核心架构组件。这次信号密度是有史以来最高的,可能真的要来了。
 大家好,我是 AI 学习的老章。
 先说可信度。Yifan Zhang 北大元培、清华姚班出来的,虽然他本人不在 DeepSeek,但五个信号一起指向同一个方向:梁文锋在内部确认了 4 月下旬发布,Polymarket 预测市场给出 75% 概率,DeepSeek 网页端已经上线快速模式和专家模式在预热,DeepGEMM 4 月 16 日大更新,新增了 Mega MoE、FP8xFP4 GEMM 这些组件,跟 V4 架构传闻高度吻合。
 曝光的三项架构组件,逐个说一下。
 第一,稀疏 MQA。不是每个 token 都去看全部上下文,只看最相关的那部分,把百万级长上下文的算力复杂度从二次方压到接近线性。配套还有一个 Lightning Indexer,几百页文档 20 毫秒以内检索完。
 第二,融合 MoE 大核。MoE 路由判断和矩阵乘法原本是两步操作,中间有显存搬运的开销,这次直接融合进同一个 GPU kernel,推理延迟的优化非常直接。
 第三,mHC,流形约束超连接。传统残差连接的泛化版本,用多条可学习的加权通路替代单一加法。早期版本信号放大会失控,最高到 3000 倍,训练直接崩。DeepSeek 用 Sinkhorn-Knopp 算法把它约束在 2 倍以内,额外开销只有 6.7%,但换来的是万亿参数级别的稳定训练能力。
 目前已知的 V4 规格:约 1 万亿参数 MoE,百万级上下文,首次全面适配华为昇腾国产算力,Apache 2.0 开源,API 定价约每百万 token 0.3 美元,是 GPT 旗舰模型的十分之一。
 之前已经跳票两次,但这次信号密度是最高的。如果下周真的发布,那就是国产 AI 第一个万亿参数开源模型,拭目以待。 DeepSeek V4 下周发布?三项架构组件曝光 DeepSeek V4 下周就来?4月19日,普林斯顿 AI Lab 研究员 Yifan Zhang 在 X 上发了一条帖子——"V4,下周",同时曝光了三项核心架构组件。这次信号密度是有史以来最高的,可能真的要来了。 大家好,我是 AI 学习的老章。 先说可信度。Yifan Zhang 北大元培、清华姚班出来的,虽然他本人不在 DeepSeek,但五个信号一起指向同一个方向:梁文锋在内部确认了 4 月下旬发布,Polymarket 预测市场给出 75% 概率,DeepSeek 网页端已经上线快速模式和专家模式在预热,DeepGEMM 4 月 16 日大更新,新增了 Mega MoE、FP8xFP4 GEMM 这些组件,跟 V4 架构传闻高度吻合。 曝光的三项架构组件,逐个说一下。 第一,稀疏 MQA。不是每个 token 都去看全部上下文,只看最相关的那部分,把百万级长上下文的算力复杂度从二次方压到接近线性。配套还有一个 Lightning Indexer,几百页文档 20 毫秒以内检索完。 第二,融合 MoE 大核。MoE 路由判断和矩阵乘法原本是两步操作,中间有显存搬运的开销,这次直接融合进同一个 GPU kernel,推理延迟的优化非常直接。 第三,mHC,流形约束超连接。传统残差连接的泛化版本,用多条可学习的加权通路替代单一加法。早期版本信号放大会失控,最高到 3000 倍,训练直接崩。DeepSeek 用 Sinkhorn-Knopp 算法把它约束在 2 倍以内,额外开销只有 6.7%,但换来的是万亿参数级别的稳定训练能力。 目前已知的 V4 规格:约 1 万亿参数 MoE,百万级上下文,首次全面适配华为昇腾国产算力,Apache 2.0 开源,API 定价约每百万 token 0.3 美元,是 GPT 旗舰模型的十分之一。 之前已经跳票两次,但这次信号密度是最高的。如果下周真的发布,那就是国产 AI 第一个万亿参数开源模型,拭目以待。

武林热点

0.0w

微信登录

手机号登录

微信扫码登录/注册互联岛
扫码即表示已阅读并接受《用户协议》《个人信息保护政策》