AI Builders 日报 — 2026年4月18日

🔥 今日高光

Codex 的重心已经从“写代码”扩展到真正的 computer use。 Sam Altman 直说这次大更新里最让他意外的是 computer use：agent 不只是会调工具，而是能在 Mac 上并行操作应用、后台跑长任务。Aaron Levie 也顺着这个方向判断，knowledge work 里的 agent 形态会因此再往前跳一大步。
🔗 Sam Altman · 补充说明 · Aaron Levie
Claude Opus 4.7 这次不是单纯“更强”，而是把 agent workflow 的控制面做细了。 Claude 官方同时强调 /ultrareview、auto mode 扩展给 Max 用户、API 侧新增 xhigh effort 与 task budgets；Alex Albert 和 Cat Wu 则把重点落在更可预测的 effort、更好的 async work、以及把验证流程写进 claude.md 这种可操作习惯上。builder 们现在卷的不是一句 prompt，而是整套 execution contract。
🔗 Claude 发布 · Claude Code 更新 · API effort / budgets · Alex Albert · Cat Wu
Agent backend 的主战场正在变成 durability，而不是单次成功率。 Guillermo Rauch 点得很准：真正难的不是让 demo 跑起来，而是应对模型挂掉、服务 rate limit、数据库抖动和长流程重试。这说明下一阶段 agent infra 的竞争，会更多落在 workflow engine、checkpointing、恢复能力与多云部署故事上。
🔗 原文
HTML 正在从“展示层”升级成 agent-native content format。 Zara Zhang 的 “HTML videos are here” 爆得很猛，本质上是在说 HTML 正在吃掉 slides、video、interactive demo 这些原本分散的媒介形态。Ryo Lu 这边则用 Cursor 的 prototyping environment 把同一趋势落到产品里：agent 产出的不只是文本和代码，而是可以直接 remix、测试、迭代的界面。
🔗 Zara Zhang · 补充示例 · Ryo Lu / baby glass
AI for science 继续沿着“专用 frontier model + 受控访问”这条线推进。 Kevin Weil 发布 GPT-Rosalind，把 biology、drug discovery、translational medicine 拉进专门模型与插件体系里；它不是泛用模型简单换个壳，而是把研究数据库、工具链和 biosecurity safeguard 一起打包。面向科学研究的模型产品，正在走向更垂直、更受控的 deployment。
🔗 原文 · 补充链接

🐦 Builder 动态

Sam Altman — Codex 开始往“后台同事”而不是“代码助手”演化

Sam Altman 今天几条关于 Codex 的更新，最值得记的是他对 computer use 的评价：不是功能列表里又多一项，而是真的让人感到 agent 可以在后台接手更完整的工作片段。再加上“从经验中学习”“主动建议下一步”这些表述，Codex 的产品方向已经明显在往 long-running, proactive agents 靠。

如果这条线继续成立，那么 coding tool 的边界会进一步模糊：它不只是 editor 内的一层 AI，而是一个能跨 app、跨工具、跨时段持续执行的工作体。

🔗 主要更新
🔗 补充说明
🔗 调侃 rate limit 侧面说明热度

Claude / Alex Albert / Cat Wu / Thariq — Claude Code 的重点正在转向“更可控的 agent runtime”

今天围绕 Claude Opus 4.7 的信息很多，但串起来看，核心并不是 benchmark，而是 如何把 agent 行为调得更稳、更可控。

Claude 官方强调 /ultrareview、auto mode、xhigh effort、task budgets
Alex Albert 强调 async work、instruction following 和 token control 的可预测性
Cat Wu 提醒大家把 testing / verification workflow 显式写进 claude.md
Thariq 则把 docs 里的 “What’s New” 与 /usage 更新放到前台，继续做产品教育

这背后透露出一个很清楚的变化：builder 们已经不满足于“模型更聪明”，而是要求 更好的 knobs、更好的 defaults、更好的 verification path。

🔗 Claude Opus 4.7
🔗 /ultrareview 与 auto mode
🔗 API effort / task budgets
🔗 Alex Albert 总结
🔗 Cat Wu: verify workflow
🔗 Cat Wu: 默认 xhigh
🔗 Thariq: What’s New
🔗 Thariq: /usage 更新

Guillermo Rauch — durability 正在成为 agent infra 的第一性问题

Rauch 这条很像给 agent backend 写的路标：真正让系统难做的，不是 happy path，而是 模型挂掉、外部服务抖动、rate limit、数据库变慢 这些现实问题。也因此，workflow SDK 这一层的重要性变得更高，因为它承接的是 agent 从 demo 到 production 之间最难跨过去的那道坎。

对 builder 来说，这条信息很实用：如果你在做 agent 产品，别只盯模型切换和 prompt 优化，durability / retries / resumability 很可能才是留存和口碑的分水岭。

🔗 原文
🔗 AI Gateway / 多模型波动性判断

Ryo Lu — 最好的 AI IDE 工作流越来越像“多模型分工”

Ryo Lu 直接给了一个很有参考价值的个人配方：Opus 4.7 用来 planning，Composer 2 负责 build 和迭代，Codex / GPT-5.4 处理 hard bugs。这其实是一种非常实用的 builder 方法论：不要幻想单模型包打天下，而是按任务类型去分配模型角色。

配合他展示的 baby glass prototyping environment，可以看到 Cursor 想推进的方向也很明确：agent 输出不止是代码 diff，而是更贴近产品原型和界面实验本身。

🔗 多模型分工
🔗 baby glass

Zara Zhang — HTML 正在成为更通用的创作容器

Zara 那句 “HTML is eating everything” 今天很有代表性。重点不是又一个酷炫 demo，而是 HTML 作为最低摩擦、最高兼容性的输出格式，正在把 slides、video、交互展示都收编进来。对 agent 来说这很重要，因为它意味着“生成可分享产物”这件事，可以用统一媒介完成。

这条线对内容产品、教育工具、demo tooling 都很有启发：未来很多生成式工作流的终点，未必是 PDF 或 Figma，而是一个可以立刻跑起来、展示起来、传播起来的 HTML artifact。

🔗 HTML videos are here
🔗 Frontend Slides → video 示例
🔗 deep talk / deep read / deep play

Kevin Weil — Scientific AI 产品化开始走“专模 + 插件 + 守护栏”路线

Kevin Weil 发布 GPT-Rosalind 时，最值得注意的不是“又一个新模型”，而是它明显针对 biology / drug discovery / translational medicine 这些高价值、高风险领域设计，同时搭配 trusted access 和 Life Sciences plugin。说明 OpenAI 在科学研究场景里，正在把模型能力、工具接入和安全策略一起打包成产品。

这对 builder 的启发是：越往高价值行业走，越不可能只靠通用聊天入口，vertical model surface + domain tooling + safeguards 可能会一起成为默认配置。

🔗 原文
🔗 videos / demos / access 说明
🔗 Codex computer use 体验

Aaron Levie — knowledge work 的 agent 化，关键在跨工具执行

Aaron Levie 对新 Codex 的评价很到位：当 agent 既能 code、又能用 tools、还能操作 computer 时，后台长任务就开始进入知识工作的主流程。更关键的是，他把 Box plugin 放在“跨应用协作”的语境里说，说明企业 agent 的真正杠杆，不在单一应用内部，而在 跨系统 orchestration。

🔗 原文

Peter Steinberger / Garry Tan — 开源 agent 生态开始提前适应更高强度的安全压力

Peter Steinberger 回应 “OpenClaw 不安全” 这类批评时，给出的视角很重要：越来越多的 GHSA、安全修复和公开披露，未必说明某个项目更糟，反而可能说明 整个行业正在进入更高密度的安全审视阶段。Garry Tan 这边也同步在发 GBrain security fixes 和 /ship 稳定性修复，说明 builder 圈已经把安全与 robustness 当成日常工程，而不是 PR 话术。

🔗 Peter Steinberger
🔗 Garry Tan: security fixes
🔗 Garry Tan: /ship fixes

🎧 Podcast

今天 follow-builders feed 检出 1 集新 Podcast，但当前 feed 提供的是 频道主页链接，不是具体 episode URL。按发布规则“每条必须附具体原文链接”，本期暂不单独收录播客摘要，避免误链。

可供后续核对的 feed 条目：Latent Space — Notion’s Token Town: 5 Rebuilds, 100+ Tools, MCP vs CLIs and the Software Factory Future
🔗 频道链接（非 episode 链接，故不展开摘要）

今日观察

把今天这些 builder 动态放在一起看，能看到一条很清楚的主线：

agent 正在从 coding assistant 变成可后台运行的 computer-use worker
模型竞争正在转向 effort、budget、verification、docs 这些控制面细节
真正的 infra 难点不是生成，而是 durability
HTML 正在成为 agent-native 的通用输出层
科学与企业场景都在推动更垂直、更受控的 agent 产品形态

所以今天最值得记住的，不是某个单点新功能，而是一个更大的转向： 2026 年的 builder 正在把 agent 从“会做事”打磨成“能稳定长期做事”。

本日报基于 follow-builders feed 中的 X 推文与 Podcast 数据 remix 生成。所有条目均附原始来源链接；未能确认的内容未写入。

🔥 今日高光#

🐦 Builder 动态#

Sam Altman — Codex 开始往“后台同事”而不是“代码助手”演化#

Claude / Alex Albert / Cat Wu / Thariq — Claude Code 的重点正在转向“更可控的 agent runtime”#

Guillermo Rauch — durability 正在成为 agent infra 的第一性问题#

Ryo Lu — 最好的 AI IDE 工作流越来越像“多模型分工”#

Zara Zhang — HTML 正在成为更通用的创作容器#

Kevin Weil — Scientific AI 产品化开始走“专模 + 插件 + 守护栏”路线#

Aaron Levie — knowledge work 的 agent 化，关键在跨工具执行#

Peter Steinberger / Garry Tan — 开源 agent 生态开始提前适应更高强度的安全压力#

🎧 Podcast#

今日观察#