本周 AI 论文大爆炸:三条路线同时加速
长上下文、自我进化 Agent、Transformer 到 Mamba 的架构迁移,共同把大模型竞争从“单次回答质量”推向“系统级效率”。
- DeepSeek V4 / V4-Flash 把 1M token 上下文推向开源和低价场景
- Autogenesis 用协议层描述 Agent 如何提出、评估和提交自我改进
- Attention to Mamba 证明 Transformer 资产可以通过蒸馏迁移到更高吞吐架构
对产品团队来说,最直接的动作是重新评估“长上下文可用以后,哪些原本需要切片、摘要、索引的流程可以被简化”。这不是不用 RAG,而是 RAG 的边界会被重新划线。
苹果 AI 硬件战略:Ternus 接棒前的产品伏笔
库克将在 2026 年 9 月 1 日卸任 CEO,John Ternus 接棒。苹果的下一阶段,很可能重新围绕硬件入口组织 AI 体验。
多家媒体跟进了苹果 CEO 交接与新产品传闻:智能眼镜、带摄像头的 AirPods、AI pendant、智能显示屏、桌面机器人、安防摄像头等方向都被反复提及。它们共同指向一个判断:苹果不会只把 AI 做成 App 功能,而是会继续寻找新的个人计算入口。
这条线的关键不是“苹果会不会出一个 AI Pin”,而是苹果如何把视觉感知、语音助手、隐私保护和 iPhone 生态重新组合。Ternus 是硬件工程背景,这让苹果 AI 的下一步更可能从设备形态切入,而不是只在云端模型能力上硬碰硬。
- 苹果的 AI 差异化大概率不会来自“模型参数最大”,而是来自硬件、隐私、系统级权限和生态分发。
- 可穿戴 AI 的第一性问题不是功能列表,而是用户是否愿意让设备持续看见、听见和理解环境。
- Siri 升级仍是瓶颈。没有可靠的语音与任务理解层,再多新硬件也容易变成漂亮外设。
GBrain / BrainBench:知识图谱仍是个人知识系统的硬骨架
个人知识大脑的评测案例提醒我们:向量检索很强,但关系型问题仍然需要图谱、结构化线索和可解释路径。
素材里提到的 GBrain 评测框架 BrainBench,把个人知识库拆成了可测试的问题集合:关系查询、事实召回、语义检索、精确度和失败样本。它最有价值的地方不在具体数字,而在方法论:知识系统不能只靠“感觉好用”,必须能被持续 benchmark。
从经验上看,纯向量检索擅长找“语义相似”,但不擅长回答“谁和谁发生过什么关系、这个决策从哪条线索演化而来、某个项目依赖哪些人和文档”。这类问题需要图谱层承担骨架,向量负责语义扩展,grep 或关键词检索负责精确落点。
- 做企业知识库时,不要把“向量数据库”误认为完整答案;Graph + Vector + Keyword 更接近默认架构。
- 先定义 50 到 150 个真实业务问题,再评估检索方案,不要只看 demo 命中率。
- 把失败样本产品化:每一次答错,都应该能回到数据结构、索引策略或评测集里修正。
每人最多 7 个主 Agent:AI 协作也受认知带宽约束
Agent 产品不能只按能力扩张,还要按人的注意力设计。太多入口会带来控制感,随后迅速变成管理负担。
“7 个主 Agent”更适合作为产品设计假设,而不是严格科学定律。它借用了 Miller's Law 的直觉:人类能同时稳定管理的注意力块有限。因此,一个人不可能长期微操几十个平级 Agent,真正可持续的协作形态一定是少数主 Agent 负责承接意图,再调度更多子 Agent 完成任务。
这对组织设计也有启发。未来每个员工可能不是拥有一个“万能助理”,而是拥有几个稳定角色:研究 Agent、项目 Agent、写作 Agent、数据 Agent、工程 Agent 等。人最多需要下探到子 Agent 查看过程和纠偏,但不应被迫管理更深层的执行网络。
- Agent 产品要控制主入口数量,让用户形成稳定心智模型。
- 子 Agent 的存在感应该服务于透明度和纠偏,而不是制造更多待办。
- AI 越强,人对目标定义、验收标准和异常处理的要求越高,这就是 Agent 时代的杰文斯悖论。
Claude Code 架构启发:Coding Agent 的壁垒在 Harness
Claude Code 源码泄露事件让行业看见一个现实:生产级 Coding Agent 的核心不是一段神秘提示词,而是一整套确定性运行环境。
公开报道显示,Claude Code 曾因 npm source map 打包问题暴露约 51 万行源码。围绕泄露源码的二次分析里,一个共识越来越清晰:真正让 Coding Agent 可用的,是权限控制、工具调度、文件系统上下文、错误恢复、执行沙箱、日志和人类确认机制。
也就是说,模型负责判断和生成,但系统负责让它在正确的边界里行动。好的 Coding Agent 不是把模型放进终端就结束,而是给模型一个足够丰富、足够安全、足够可回滚的工作环境。
- Agent 工程的护城河在 harness:权限、上下文、工具、回滚、评测和审计。
- “最小 AI 决策层 + 最大确定性环境”会成为更多生产级 Agent 的主流形态。
- 对内部研发平台而言,优先建设可控工具层,往往比追逐单一模型更有复利。
今日结论:AI 的竞争重点正在从“模型能不能回答”转向“系统能不能持续交付”。长上下文降低知识处理成本,图谱和评测保证检索可信,层级 Agent 匹配人的认知带宽,Coding Agent 则证明运行环境才是生产化关键。对团队而言,下一步不是多接几个 AI 工具,而是把 AI 放进可评测、可审计、可协作的工作架构里。