AI Builders 日报 — 2026年4月25日

🔥 今日高光

GPT-5.5 + Codex 正在把 coding agent 从 demo 推向可验证的真实产出。 Peter Yang 用经典的 F-Zero 测试验证后认为，GPT-5.5 与 Codex 是目前少数能直接做出可运行小游戏的组合；Swyx 也提到，今天真正值得注意的重点未必只是 GPT-5.5 本身，而是新一代 agent execution surface 的变化。
🔗 Peter Yang
🔗 Swyx
enterprise agent 的结果越来越好，但工作量不一定会下降。 Aaron Levie 一边给出 Box 内部 enterprise eval：GPT-5.5 相比 GPT-5.4 在金融、医疗、公共部门等内容任务上普遍提升约 10 个百分点；另一边又提醒，AI 会让更多原本懒得启动的小项目开始动起来，结果往往不是“少干活”，而是“能做的事突然变多”。
🔗 Box eval 结果
🔗 工作不会自动变少
memory 正在从“聊天记录副产物”升级成 agent product 的一等能力。 Claude Managed Agents 公测 memory，且明确把 memories 存成 files，意味着可导出、可 API 管理、可由开发者掌控。这是很重要的产品信号：长期 agent 的竞争，开始从单轮推理转向 memory architecture。
🔗 Memory public beta
🔗 Memories are files
AI infra 的真实分水岭正在落到 knowledge layer，而不只是模型调用。 Garry Tan 给 GBrain 新增 eval，强调 graph + vector search + grep 组合在 knowledge wiki 上的优势；同时继续把 OpenClaw cron jobs 与 subagents 迁移到 GBrain Minions。可见下一阶段 agent infra 的壁垒，正在变成可检索、可调度、可稳定运行的 memory / search / worker 系统。
🔗 GBrain Minions stability
🔗 graph + vector + grep evals
中国开源模型继续给全球 builder 压力。 Amjad Masad 一边点名“Chinese distillation”式政治叙事过于廉价，一边直接转发 DeepSeek v4 上线，认为真正值得关注的是公开分享的技术突破本身。对 builder 来说，这代表全球 open progress 仍在继续，不是只剩封闭大厂竞赛。
🔗 关于 Chinese breakthroughs
🔗 DeepSeek v4

🐦 Builder 动态

Aaron Levie（Box CEO）— enterprise agent 的关键变化，是“更强”与“更多活”同时发生

Aaron Levie 今天最值得记住的是这组看似矛盾、其实很真实的组合判断：一方面，GPT-5.5 在 Box 的复杂 enterprise content eval 上，确实对金融、医疗、公共部门等知识工作场景带来了明显提升；另一方面，AI 并没有自动减少工作，反而因为启动成本下降，让更多以前不会开做的项目被做了出来。

这很像知识工作的真实未来：agent 提升的是启动密度与探索半径，不是简单的 headcount 替代。企业接下来面对的，不只是“模型能不能做”，而是 workflow 会不会因此膨胀，组织是否接得住新增工作流。

🔗 GPT-5.5 enterprise eval
🔗 AI 不会自动减少工作

Claude / Anthropic — memory file 化，说明 managed agents 开始认真做长期可控性

Claude 官方今天两条更新放在一起看，信息量很大：Managed Agents 的 memory 进入 public beta，而且 memories 不是藏在黑箱里，而是直接以 files 形式存储，支持导出和 API 管理。这件事的意义不只是“agent 记住更多东西”，而是 Anthropic 在公开定义一种更可控的长期记忆范式。

如果 memory 能被开发者看见、迁移、管理，那 agent 就更像一套可维护的软件系统，而不是一次性的聊天会话。这对企业 adoption 很重要，因为真正要上线的 agent，一定会被追问 retention、审计、ownership 与 portability。

🔗 Memory public beta
🔗 Memories are files

Sam Altman / Peter Yang / Swyx — GPT-5.5 与 Codex 的价值，不只是更强，而是更像“完整执行面”

Sam Altman 提到与 NVIDIA 一起尝试在整个公司层面部署 Codex，效果非常好；Peter Yang 则用 F-Zero 测试给出更直观的 builder 视角：GPT-5.5 + Codex 已经能把一个经典小游戏直接做成可运行版本。Swyx 补了一刀，他认为今天最被低估的部分甚至不是 GPT-5.5 本身，而是整套新 execution surface 的变化。

把这三条合起来看，信号很清楚：coding agent 竞争不再只是 benchmark，而是能否进入真实团队、真实任务、真实交付。模型升级只是底层推力，真正影响 adoption 的是 agent 是否开始像一个可托付的执行面。

🔗 Sam Altman / Codex at company scale
🔗 Peter Yang / F-Zero test
🔗 Swyx / underrated part of launch
🔗 Swyx / Codex app

Garry Tan（YC / GBrain）— 下一代 agent infra 竞争点，正在下沉到 search 与 worker runtime

Garry Tan 这两条更新很 builder：一条是继续把 OpenClaw cron jobs 与 subagents 迁移到 GBrain Minions，说明他在把 agent orchestration 压进更稳定的 worker infra；另一条是新 eval 证明 graph search、vector search 与 grep 叠加后，在 knowledge wiki 场景里明显更强。

这很值得跟，因为它说明 memory / retrieval 已经不再是附属功能，而是 agent product 的主战场。未来谁能把 graph、vector、file、task runtime 组合成稳定系统，谁就更可能拿下长周期知识工作。

🔗 Minions stability
🔗 GBrain evals

Amjad Masad（Replit CEO）— 开放创新仍在继续，全球 AI 竞赛不只是封闭模型故事

Amjad Masad 今天的态度很明确：与其把讨论都丢给政治化叙事，不如看真正公开发布的技术突破。他转发 DeepSeek v4，同时强调中国研究者把实际进展公开出来，本身就会让全行业受益，包括美国的小实验室甚至大实验室。

这类表态的价值，不在于单条新闻，而在于它提醒 builder：2026 年的 AI 竞赛依旧是全球、多中心、快速扩散的。只盯着少数 closed labs，很容易错过开源世界真正的加速度。

🔗 Chinese breakthroughs
🔗 DeepSeek v4

📄 论文速递

今天这批 follow-builders 数据里没有适合单独展开的论文条目。本期更值得追的主线仍然是 enterprise eval、memory architecture、以及 coding agent 向通用 execution surface 外溢。

🛠️ 新工具/项目

Claude Managed Agents Memory：把 memory 变成 file-backed、可导出、可 API 管理的长期层，明显是在补 managed agents 的生产可用性。
🔗 原文
GBrain Minions：继续朝更稳定的 cron / subagent worker runtime 演进，面向长期任务调度而不是一次性 demo。
🔗 原文
DeepSeek v4：最新一轮 open progress 信号，说明高质量模型进展仍在快速扩散。
🔗 原文

🇨🇳 中文圈

今天 feed 里没有独立成型的中文圈大事件，但有两条对国内 builder 尤其值得记：

DeepSeek v4 的出现再次证明，中国团队仍在持续往前推模型前沿。 这不仅影响开源社区，也会改变全球团队对 cost / capability / openness 的预期。
🔗 原文
memory file 化和 graph + vector search 这类方向，对国内私有化 agent 场景非常关键。 因为真正落地到企业内部时，可控性、可迁移、可审计，通常比单次回答更重要。
🔗 Claude memory
🔗 GBrain evals

🎧 Podcast

今天 follow-builders feed 检出 1 集新 Podcast：Unsupervised Learning — Ep 85: Has AI Infra Stabilized, FM Vibe Shift, & What’s Next for Coding Agents。

但当前 feed 给出的链接仍是 YouTube 频道页，不是具体 episode URL。按日报规则“每条必须附具体原始链接”，本期不单独展开 Podcast 摘要，避免误链。

🔗 频道链接（非具体 episode，故不展开）

今日观察

把今天这些 builder 动态放在一起看，会发现一条非常清楚的主线：

更强的模型，首先带来的不是“少工作”，而是更多可以被启动的工作
coding agent 的竞争重点，正在从“会不会写代码”转向能不能进入真实组织执行
memory、skills、graph search、vector search、worker runtime，开始成为真正的产品分水岭
全球 AI 创新依旧是多中心扩散，open progress 仍然值得高度关注

所以，今天最值得记住的不是某一个单点发布，而是一个更大的转向： agent 的下一阶段竞争，已经从模型能力，转向 execution surface 与长期系统能力。

本日报基于 follow-builders feed 中的 X 推文与 Podcast 数据 remix 生成。所有条目均附原始来源链接；未能确认的内容未写入。

🔥 今日高光#

🐦 Builder 动态#

Aaron Levie（Box CEO）— enterprise agent 的关键变化，是“更强”与“更多活”同时发生#

Claude / Anthropic — memory file 化，说明 managed agents 开始认真做长期可控性#

Sam Altman / Peter Yang / Swyx — GPT-5.5 与 Codex 的价值，不只是更强，而是更像“完整执行面”#

Garry Tan（YC / GBrain）— 下一代 agent infra 竞争点，正在下沉到 search 与 worker runtime#

Amjad Masad（Replit CEO）— 开放创新仍在继续，全球 AI 竞赛不只是封闭模型故事#

📄 论文速递#

🛠️ 新工具/项目#

🇨🇳 中文圈#

🎧 Podcast#

今日观察#