🔥 今日高光
- Claude Managed Agents 正在从“能跑起来”升级到“会自己复盘、会多 agent 协作”。 Dreaming、Outcomes、multiagent orchestration 和 webhooks 放在一起看,信号很明确:Anthropic 不只是想让 agent 完成单次任务,而是想把长期记忆、目标定义和执行编排一起产品化。这很像 agent 平台进入下一阶段的标志——不是更会回答,而是更会持续把事做下去。
🔗 原文:https://claude.com/blog/new-in-claude-managed-agents
- OpenAI/Codex 的重点,正在从“更强模型”转成“更大规模、更快、更久的执行体验”。 Thibault Sottiaux 一边提到 Codex 已有 500 万用户并准备再次放宽额度,一边明确把 GPT-5.5 的升级描述为 capability + token efficiency 同步提升。另一层更重要的信号是,产品团队已经开始主动问用户“还有什么烦人的问题没修掉”,这说明 Codex 竞争重点正落到日常 friction,而不是只看模型 headline。
🔗 500 万用户 / 重置额度:https://x.com/thsottiaux/status/2060964284117782996
🔗 GPT-5.5 路线:https://x.com/thsottiaux/status/2060627747760984429
🔗 Codex 待修问题征集:https://x.com/thsottiaux/status/2060960564676034726
- Builder 圈对“长任务 agent”已经不是概念讨论,而是开始晒真实工时与真实 token。 Peter Steinberger 说,在 GPT-5.5、/goal、autoreview 与 crabbox 组合下,自己的 prompts 已从 30-60 分钟级别,抬到经常能跑 4-10 小时;Dan Shipper 则直接晒出 38b tokens 和 56 小时最长任务。两条放在一起看,说明 coding agent 的主战场已经从“能不能写出东西”转向“能不能放心让它长时间推进”。
🔗 Peter Steinberger:https://x.com/steipete/status/2060678430031597696
🔗 Dan Shipper:https://x.com/danshipper/status/2060771279280513362
- 企业对 AI 的现实态度,越来越像“把省下来的钱继续砸回增长”,而不是单纯裁人。 Aaron Levie 这条很值得记。他说自己和大企业 CIO、CTO、CEO 的多数对话里,AI 带来的结果要么是新增岗位,要么是把效率红利重新投向销售、营销、工程和风控等更高增长区域。这其实是在提醒大家:当 AI 真进入企业后,最常见的结果不是业务收缩,而是组织把产能重新分配到更值钱的地方。
🔗 原文:https://x.com/levie/status/2060923684295221390
- Google 系研究者继续把 world models、continual learning 与 agent scaffolding 拉到同一条线上。 今天唯一的新 podcast 里,Gemini co-lead Oriol Vinyals 讨论的重点,不是单点 demo,而是为什么下一代 agent 需要更像 world model 的能力:不仅要会生成,还要会预测、会规划、会在更长的任务里保持学习与更新。这条线对所有做 agent、robotics、multimodal 的团队都值得持续盯。
🔗 收听 / 观看:https://www.youtube.com/watch?v=NQczevdpxq0
🐦 Builder 动态
OpenAI / Thibault Sottiaux:Codex 已经进入“大规模使用 + 持续打磨 friction”阶段。 今天最有代表性的 builder 信号来自 Thibault。500 万用户、再次放宽额度、持续修 annoying bugs,这三件事合起来说明:Codex 现在面对的问题已经不是“有没有人用”,而是“高频用户每天还会被什么绊住”。同时,他把 GPT-5.5 的命名逻辑解释为 capability 和 token efficiency 同步提升,也说明模型升级已经和产品速度、成本、可持续使用直接绑定在一起。
🔗 https://x.com/thsottiaux/status/2060964284117782996
🔗 https://x.com/thsottiaux/status/2060960564676034726
🔗 https://x.com/thsottiaux/status/2060627747760984429
Guillermo Rauch:真正的产品判断,不是“要不要 AI”,而是“产品是不是最好的”。 Rauch 今天那句 “Use lots of AI, some AI, maybe no AI. Just be the best.” 很像一句很朴素、但很重要的校准。现在很多团队容易把 AI 当作产品叙事本身,但他的意思更像是:AI 只是达到更好产品结果的手段,而不是目的。另一条关于 AI Gateway per-API key spend caps 的更新,则对应了另一层更务实的现实——agent / multi-model 产品一旦真跑起来,成本控制就会迅速变成一等问题。
🔗 产品判断:https://x.com/rauchg/status/2060803480823193840
🔗 AI Gateway 支出上限:https://x.com/rauchg/status/2060787704166776927
Aaron Levie:企业不会只把 AI 当削减成本工具,而会把它变成再投资机器。 Levie 今天的长帖最值得记住的一点,是他把 AI 的组织效果讲得非常经营层:当更多软件、销售动作、营销活动、风险发现与客户成功动作变便宜后,企业不会自然停下来,而会继续把新增能力投向竞争优势更强的区域。这也是为什么 enterprise AI 讨论正在逐渐从“省多少人”转向“能不能把 workflow 真正做大”。
🔗 https://x.com/levie/status/2060923684295221390
Ryo Lu:auto-review 的真正价值,不只是自动化,而是把风险解释清楚。 Ryo Lu 点到一个很实用的点:Cursor 的 auto-review 会解释 command 和 risk,这让新手更容易学会“为什么可以这样做”。这意味着 AI review 工具的价值,不一定只是帮你少点几次按钮,而是把 tacit knowledge 外显出来。对下一阶段的 AI IDE 来说,解释能力可能和执行能力一样重要。
🔗 https://x.com/ryolu_/status/2060766674203353190
Peter Steinberger / Dan Shipper:长任务 agent 已经开始有了“可运营性”味道。 Steinberger 讲的是 /goal、autoreview、crabbox 组合后,任务时长可以被放心拉长;Dan Shipper 则用 38b tokens 和 56 小时最长任务,把“长任务 agent”从抽象趋势变成了直观指标。对 builder 来说,这两条的真正含义是:agent 价值正在从“省几分钟”变成“能不能接住半天到几天的执行链路”。
🔗 Peter Steinberger:https://x.com/steipete/status/2060678430031597696
🔗 Peter Steinberger(autoreview / crabbox):https://x.com/steipete/status/2060691552486175041
🔗 Dan Shipper:https://x.com/danshipper/status/2060771279280513362
📝 官方 Blog
Claude Managed Agents:Agent 平台的竞争,开始从“有没有 memory”升级到“memory 会不会自己变干净、变有用”。 今天最值得细看的官方内容还是这篇 Claude Managed Agents 更新。Dreaming 的关键不是多存一点记忆,而是定期回看历史 session 和 memory store,抽取规律、发现 recurring mistakes,并整理出更高信噪比的长期记忆。它搭配 Outcomes、multiagent orchestration 与 webhooks 一起看,几乎就是在回答 agent 平台的四个核心问题:
- 什么叫做成功
- 复杂任务如何拆开协作
- 外部系统如何触发与接收结果
- 长期运行后,记忆如何不变脏
这对 builder 的启发很直接:真正能打的 agent 系统,不只是一次跑通,而是能在反复执行后越来越像一个成熟 teammate。
🔗 原文:https://claude.com/blog/new-in-claude-managed-agents
🎧 Podcast
Unsupervised Learning:Gemini Co-Lead on World Models, RL’s Next Domains & Continual Learning
The Takeaway: 下一代 agent 的关键,不只是更会推理,而是更会预测、持续学习,并按任务动态构造执行结构。
这期对 builder 最有价值的地方,是它把几个经常被分开讨论的话题重新串起来:world models、RL、continual learning、memory、以及 agent scaffolding。Oriol Vinyals 讨论的重点并不是“再做一个更炫的多模态 demo”,而是如果你真想让 agent 进入更复杂、更长程、更贴近现实世界的任务,那么系统就不能只擅长 next-token continuation。
更值得记住的有三点:
- world models 的价值,在于预测行动后果,而不只是生成内容。 如果系统不能对环境变化形成更稳定的内部建模,那么所谓 planning 很容易只停留在语言表层。
- continual learning 仍然是长期必答题。 真正进入现实工作流的 agent,不能每次都像失忆一样重新开始,而要逐渐把经验沉淀成后续任务的优势。
- 今天很多由人手写的 scaffolding,长期可能会被模型自己动态生成。 包括 delegation、subagents、long-running workflows 这类 builder 现在手工搭的结构,未来更可能变成模型按任务需要即时构造的一部分。
如果把这期内容压成一句话,那就是:agent 的下一个门槛,不是更会说,而是更像一个能在世界里持续行动、持续修正自己的系统。
🔗 收听 / 观看:https://www.youtube.com/watch?v=NQczevdpxq0
💡 今日观察
把今天这些 builder 信号放在一起看,会发现一条很清楚的主线:
- OpenAI/Codex 在把 agent 做成更大规模、更低 friction 的日常工具
- Anthropic 在把长期记忆、复盘和多 agent 编排做成正式平台能力
- Builder 们开始用“4-10 小时任务”“56 小时最长任务”“38b tokens”这类指标描述工作流
- 企业端的现实讨论,则从裁员神话回到更接地气的再投资、增产与 workflow 放大
所以今天最值得记住的一句话是:
2026 年中期的 agent 竞争,已经不只是模型聪不聪明,而是谁能把记忆、长任务执行、成本控制和组织接入一起做成可长期运行的系统。
本日报仅基于 follow-builders feed 中可确认的 X、podcast 与 blog 数据 remix 生成;未确认的信息未写入。Generated through the Follow Builders workflow.