🔥 今日高光
Codex 的重心已经从“写代码”扩展到真正的 computer use。 Sam Altman 直说这次大更新里最让他意外的是 computer use:agent 不只是会调工具,而是能在 Mac 上并行操作应用、后台跑长任务。Aaron Levie 也顺着这个方向判断,knowledge work 里的 agent 形态会因此再往前跳一大步。
🔗 Sam Altman · 补充说明 · Aaron LevieClaude Opus 4.7 这次不是单纯“更强”,而是把 agent workflow 的控制面做细了。 Claude 官方同时强调
/ultrareview、auto mode 扩展给 Max 用户、API 侧新增xhigheffort 与 task budgets;Alex Albert 和 Cat Wu 则把重点落在更可预测的 effort、更好的 async work、以及把验证流程写进claude.md这种可操作习惯上。builder 们现在卷的不是一句 prompt,而是整套 execution contract。
🔗 Claude 发布 · Claude Code 更新 · API effort / budgets · Alex Albert · Cat WuAgent backend 的主战场正在变成 durability,而不是单次成功率。 Guillermo Rauch 点得很准:真正难的不是让 demo 跑起来,而是应对模型挂掉、服务 rate limit、数据库抖动和长流程重试。这说明下一阶段 agent infra 的竞争,会更多落在 workflow engine、checkpointing、恢复能力与多云部署故事上。
🔗 原文HTML 正在从“展示层”升级成 agent-native content format。 Zara Zhang 的 “HTML videos are here” 爆得很猛,本质上是在说 HTML 正在吃掉 slides、video、interactive demo 这些原本分散的媒介形态。Ryo Lu 这边则用 Cursor 的 prototyping environment 把同一趋势落到产品里:agent 产出的不只是文本和代码,而是可以直接 remix、测试、迭代的界面。
🔗 Zara Zhang · 补充示例 · Ryo Lu / baby glassAI for science 继续沿着“专用 frontier model + 受控访问”这条线推进。 Kevin Weil 发布 GPT-Rosalind,把 biology、drug discovery、translational medicine 拉进专门模型与插件体系里;它不是泛用模型简单换个壳,而是把研究数据库、工具链和 biosecurity safeguard 一起打包。面向科学研究的模型产品,正在走向更垂直、更受控的 deployment。
🔗 原文 · 补充链接
🐦 Builder 动态
Sam Altman — Codex 开始往“后台同事”而不是“代码助手”演化
Sam Altman 今天几条关于 Codex 的更新,最值得记的是他对 computer use 的评价:不是功能列表里又多一项,而是真的让人感到 agent 可以在后台接手更完整的工作片段。再加上“从经验中学习”“主动建议下一步”这些表述,Codex 的产品方向已经明显在往 long-running, proactive agents 靠。
如果这条线继续成立,那么 coding tool 的边界会进一步模糊:它不只是 editor 内的一层 AI,而是一个能跨 app、跨工具、跨时段持续执行的工作体。
🔗 主要更新
🔗 补充说明
🔗 调侃 rate limit 侧面说明热度
Claude / Alex Albert / Cat Wu / Thariq — Claude Code 的重点正在转向“更可控的 agent runtime”
今天围绕 Claude Opus 4.7 的信息很多,但串起来看,核心并不是 benchmark,而是 如何把 agent 行为调得更稳、更可控。
- Claude 官方强调
/ultrareview、auto mode、xhigheffort、task budgets - Alex Albert 强调 async work、instruction following 和 token control 的可预测性
- Cat Wu 提醒大家把 testing / verification workflow 显式写进
claude.md - Thariq 则把 docs 里的 “What’s New” 与
/usage更新放到前台,继续做产品教育
这背后透露出一个很清楚的变化:builder 们已经不满足于“模型更聪明”,而是要求 更好的 knobs、更好的 defaults、更好的 verification path。
🔗 Claude Opus 4.7
🔗 /ultrareview 与 auto mode
🔗 API effort / task budgets
🔗 Alex Albert 总结
🔗 Cat Wu: verify workflow
🔗 Cat Wu: 默认 xhigh
🔗 Thariq: What’s New
🔗 Thariq: /usage 更新
Guillermo Rauch — durability 正在成为 agent infra 的第一性问题
Rauch 这条很像给 agent backend 写的路标:真正让系统难做的,不是 happy path,而是 模型挂掉、外部服务抖动、rate limit、数据库变慢 这些现实问题。也因此,workflow SDK 这一层的重要性变得更高,因为它承接的是 agent 从 demo 到 production 之间最难跨过去的那道坎。
对 builder 来说,这条信息很实用:如果你在做 agent 产品,别只盯模型切换和 prompt 优化,durability / retries / resumability 很可能才是留存和口碑的分水岭。
Ryo Lu — 最好的 AI IDE 工作流越来越像“多模型分工”
Ryo Lu 直接给了一个很有参考价值的个人配方:Opus 4.7 用来 planning,Composer 2 负责 build 和迭代,Codex / GPT-5.4 处理 hard bugs。这其实是一种非常实用的 builder 方法论:不要幻想单模型包打天下,而是按任务类型去分配模型角色。
配合他展示的 baby glass prototyping environment,可以看到 Cursor 想推进的方向也很明确:agent 输出不止是代码 diff,而是更贴近产品原型和界面实验本身。
🔗 多模型分工
🔗 baby glass
Zara Zhang — HTML 正在成为更通用的创作容器
Zara 那句 “HTML is eating everything” 今天很有代表性。重点不是又一个酷炫 demo,而是 HTML 作为最低摩擦、最高兼容性的输出格式,正在把 slides、video、交互展示都收编进来。对 agent 来说这很重要,因为它意味着“生成可分享产物”这件事,可以用统一媒介完成。
这条线对内容产品、教育工具、demo tooling 都很有启发:未来很多生成式工作流的终点,未必是 PDF 或 Figma,而是一个可以立刻跑起来、展示起来、传播起来的 HTML artifact。
🔗 HTML videos are here
🔗 Frontend Slides → video 示例
🔗 deep talk / deep read / deep play
Kevin Weil — Scientific AI 产品化开始走“专模 + 插件 + 守护栏”路线
Kevin Weil 发布 GPT-Rosalind 时,最值得注意的不是“又一个新模型”,而是它明显针对 biology / drug discovery / translational medicine 这些高价值、高风险领域设计,同时搭配 trusted access 和 Life Sciences plugin。说明 OpenAI 在科学研究场景里,正在把模型能力、工具接入和安全策略一起打包成产品。
这对 builder 的启发是:越往高价值行业走,越不可能只靠通用聊天入口,vertical model surface + domain tooling + safeguards 可能会一起成为默认配置。
🔗 原文
🔗 videos / demos / access 说明
🔗 Codex computer use 体验
Aaron Levie — knowledge work 的 agent 化,关键在跨工具执行
Aaron Levie 对新 Codex 的评价很到位:当 agent 既能 code、又能用 tools、还能操作 computer 时,后台长任务就开始进入知识工作的主流程。更关键的是,他把 Box plugin 放在“跨应用协作”的语境里说,说明企业 agent 的真正杠杆,不在单一应用内部,而在 跨系统 orchestration。
🔗 原文
Peter Steinberger / Garry Tan — 开源 agent 生态开始提前适应更高强度的安全压力
Peter Steinberger 回应 “OpenClaw 不安全” 这类批评时,给出的视角很重要:越来越多的 GHSA、安全修复和公开披露,未必说明某个项目更糟,反而可能说明 整个行业正在进入更高密度的安全审视阶段。Garry Tan 这边也同步在发 GBrain security fixes 和 /ship 稳定性修复,说明 builder 圈已经把安全与 robustness 当成日常工程,而不是 PR 话术。
🔗 Peter Steinberger
🔗 Garry Tan: security fixes
🔗 Garry Tan: /ship fixes
🎧 Podcast
今天 follow-builders feed 检出 1 集新 Podcast,但当前 feed 提供的是 频道主页链接,不是具体 episode URL。按发布规则“每条必须附具体原文链接”,本期暂不单独收录播客摘要,避免误链。
可供后续核对的 feed 条目:Latent Space — Notion’s Token Town: 5 Rebuilds, 100+ Tools, MCP vs CLIs and the Software Factory Future
🔗 频道链接(非 episode 链接,故不展开摘要)
今日观察
把今天这些 builder 动态放在一起看,能看到一条很清楚的主线:
- agent 正在从 coding assistant 变成可后台运行的 computer-use worker
- 模型竞争正在转向 effort、budget、verification、docs 这些控制面细节
- 真正的 infra 难点不是生成,而是 durability
- HTML 正在成为 agent-native 的通用输出层
- 科学与企业场景都在推动更垂直、更受控的 agent 产品形态
所以今天最值得记住的,不是某个单点新功能,而是一个更大的转向: 2026 年的 builder 正在把 agent 从“会做事”打磨成“能稳定长期做事”。
本日报基于 follow-builders feed 中的 X 推文与 Podcast 数据 remix 生成。所有条目均附原始来源链接;未能确认的内容未写入。