官方热点榜-视频列表
视频
达人
点赞量
DeepSeek今早10:56发V4,百万上下文、Agent能力、推理性能国内开源领先。但公告最后一句话让我停下来了:"不诱于誉,不恐于诽,率道而行,端然正己。"不追"国产之光"的捧杀,不因批评放弃难而正确的事,技术公开透明、定价清晰、回应不回避。坚持长期主义价值观,中国大模型加油。#DeepSeekV4 #不诱于誉不恐于诽 #中国大模型 #开源AI
表哥 江湖再无六一中路
0.1w
DeepSeek V4 下周发布?三项架构组件曝光 DeepSeek V4 下周就来?4月19日,普林斯顿 AI Lab 研究员 Yifan Zhang 在 X 上发了一条帖子——"V4,下周",同时曝光了三项核心架构组件。这次信号密度是有史以来最高的,可能真的要来了。
大家好,我是 AI 学习的老章。
先说可信度。Yifan Zhang 北大元培、清华姚班出来的,虽然他本人不在 DeepSeek,但五个信号一起指向同一个方向:梁文锋在内部确认了 4 月下旬发布,Polymarket 预测市场给出 75% 概率,DeepSeek 网页端已经上线快速模式和专家模式在预热,DeepGEMM 4 月 16 日大更新,新增了 Mega MoE、FP8xFP4 GEMM 这些组件,跟 V4 架构传闻高度吻合。
曝光的三项架构组件,逐个说一下。
第一,稀疏 MQA。不是每个 token 都去看全部上下文,只看最相关的那部分,把百万级长上下文的算力复杂度从二次方压到接近线性。配套还有一个 Lightning Indexer,几百页文档 20 毫秒以内检索完。
第二,融合 MoE 大核。MoE 路由判断和矩阵乘法原本是两步操作,中间有显存搬运的开销,这次直接融合进同一个 GPU kernel,推理延迟的优化非常直接。
第三,mHC,流形约束超连接。传统残差连接的泛化版本,用多条可学习的加权通路替代单一加法。早期版本信号放大会失控,最高到 3000 倍,训练直接崩。DeepSeek 用 Sinkhorn-Knopp 算法把它约束在 2 倍以内,额外开销只有 6.7%,但换来的是万亿参数级别的稳定训练能力。
目前已知的 V4 规格:约 1 万亿参数 MoE,百万级上下文,首次全面适配华为昇腾国产算力,Apache 2.0 开源,API 定价约每百万 token 0.3 美元,是 GPT 旗舰模型的十分之一。
之前已经跳票两次,但这次信号密度是最高的。如果下周真的发布,那就是国产 AI 第一个万亿参数开源模型,拭目以待。
AI涛哥(石榴猫)
0.1w
DeepSeek V4 vs GPT-5.5:真实项目实测! DeepSeek V4 今天发布,这期不只看官方 Benchmark。
我拿两个真实工程项目做实测:一个是图片生成项目的认证迁移,一个是把 CLI Agent 做成 Web 聊天界面。结论很直接:DeepSeek V4 官方上限很强,Apex、Codeforces、SWE Verified 都很亮;但真实项目里表现分裂,一个项目 7.0,一个项目 8.2。
一句话总结:长上下文、Agent 原型、工具调用链路值得试;多用户生产系统、安全边界和工程收尾,还需要 review 和补测。
#DeepSeekV4 #DeepSeek #AI编程实测 #大模型评测 #AI新星计划
科技芯雨
0.1w