zhuzilin's Blog

about

拒绝古法编程之后,也要拒绝古法思考

date: 2026-05-07
tags: 随感  

26 年过得飞快,还没想好自己要做什么半年就过去了。然后如同现在的 AI 圈子的笑谈,如果你懒得学什么的话,不用着急,过一段时间就不用学了。翻看我迟迟没有发出去的 2025 的年终总结,里面写着:

2026 年两个主要目标:

  • 研究如何搭建一套稳定且人性化的 infra 维护流程
  • 如何增加 AI 在日常工作中的占比,拒绝古法编程

当时仔细琢磨出来的目标现在看起来如此平凡。agent 的浪潮袭来,如风吹麦浪,大家纷纷折腰。一切都要革新,一直革到了自己没有落脚之处,又只好去做缩头乌龟,回去找自己原先的工作方法,结果吃不到 ai 时代的红利。

回想自己的工作方式,我一向不以手速所长,而是先通过长时间的思考,给一个比较大的规划,然后再向规划里面填活儿。这条路线走得几位顺畅,我总是有能力想出简短且有价值的指导方案,例如业余时间应该布局历史和物理,管理的关键是目标和奖惩,以及上面的拒绝古法编程。

但是最近这样的工作方式出现了一些困难,除了人变多了,更多的是:

AI 来了,活儿干得更快了,规划的速度跟不上了,总是在想下一步要干啥

所以今天在下班的时候想到,自己目前的这个规划方式貌似是有 2 个问题:

一个是自己习惯去静静地思考,而思考是无法调用 AI 的。毕竟没有脑机接口不是,所以这方面的效率是没有提升的。那么一个合理的解决方法是把思考和输出相结合,把一部分模糊的输出交给 AI,然后继续整理,思考,然后再迭代。这样的话貌似就要多写,多记录,后续的一些 blog 我也会尝试和当时最新的 AI 做沟通的方式来迭代进行。相比未来的自己看着这样的内容也是比较有趣的。

GPT 5.5:

我之前说要拒绝古法编程,现在发现还不够。真正需要拒绝的,可能是古法思考:一个人憋很久,想清楚,再输出一个完整方案。这个流程在 AI 时代太慢了,也太封闭了。

过去,写作是思考之后的产物;现在,写作应该成为思考本身的一部分。

这不是简单“多写 blog”,而是把思考从脑内迁移到可被 AI 参与的外部空间。只要思考被写出来、说出来、结构化出来,AI 就可以参与扩展、反驳、补全、重排、压缩。

也就是说,AI 时代的思考能力,很大一部分变成了:

把未完成的想法快速外化成可协作材料的能力。

另外一件事,则是很多事情不应该去考虑细化的活儿应该怎么做,而是应该考虑,如果某一件事情解决了,那么下一步应该做什么,多套一层,来增加规划的复杂度。或者是如何通过 AI 来进行思考规划,而不是直接规划,通过升维,来提升这种指导方案的坚挺程度。

GPT 5.5:

一阶规划:这件事怎么做。 二阶规划:这件事做成/做不成之后,系统会变成什么样,下一步该做什么。

在 AI 时代,真正稀缺的是二阶规划,而不是一阶拆任务。

举例来说,我觉得在前 agent 时代,最吸引我的一个问题,其实是 openai 是怎么做出 o1 的,或者说我怎样能做出 o1 这个级别的创新与影响力兼备的工作,而不是再继续等下一个 o1 出来之后,去想下一个 slime 这样的项目应该怎么构建,这样才足够有趣。

那么对于 o1 来说,我觉得他不应该是凭空想出来的,而是基于 RL 这个领域的长期积累,以及 alphago 等研究作为基础带来的。或者说一切都是有迹可循的,并未天外来物。那么貌似我应该去考虑的,就是如何借用 AI 的手段,去思考,如果我希望做出 o1 这样的工作,有哪些可以借助的背景工作?

GPT 5.5:

你现在真正不满的,其实不是“我没有项目做”,而是:

我不想永远在别人定义完新范式之后,才开始定义自己的 infra 位置。

因为 o1 不是一个单点创新。它至少包含几层东西:

  1. 一个技术判断:推理能力可以通过 RL 进一步规模化。
  2. 一个 scaling law 判断:不只是 pretraining scaling,reasoning-time / RL-time scaling 也可以成为新轴。
  3. 一个产品判断:用户愿意用更高延迟换更强推理。
  4. 一个基础设施判断:训练、采样、验证、评测、模型服务都要围绕 long reasoning 重构。
  5. 一个叙事判断:把“模型会思考更久”包装成下一代智能范式。

在下一个范式到来之前,哪些旧领域的长期积累正在逼近临界点? 哪些能力已经在论文和系统里零散存在,但还没有被统一成一个可规模化范式? 哪些 infra bottleneck 一旦被解决,会让某个研究方向突然从 toy problem 变成工业路径?

但真正的 o1 式突破,可能不是某个人忽然想出来的,而是长期处在几个技术矛盾交汇点上,最后识别到了一个已经成熟但还没被命名的新轴

但后面建议你不要接“那我如何做出 o1”,而是接:

所以真正值得训练的能力,不是凭空产生灵感,而是识别哪些积累已经接近范式跃迁。

这样会更准。

每个大范式出现前,都会有一组矛盾长期存在。

o1 之前的矛盾大概是:

  1. 模型会生成 CoT,但 CoT 的质量不可控。
  2. RLHF 能对齐偏好,但不一定能训练复杂推理过程。
  3. verifier 可以判断答案,但如何把判断转化为稳定训练信号并规模化。
  4. 采样更多 reasoning path 有收益,但成本、延迟、训练稳定性、评测都很难。
  5. pretraining scaling 很强,但在数学、代码、科学推理上仍有瓶颈。

这些矛盾长期存在,直到有人把它们组织成一个新路线。

你可以让 AI 帮你不断生成某个领域的“未完成矛盾清单”。对你来说,最值得做的可能是:

RL post-training infra 里,哪些痛苦已经反复出现,但还没有被抽象成新系统范式?

这比问“下一个项目是什么”更高阶。

你可能低估了“组织能力”在 o1 级创新中的作用

你现在的表达偏技术史:RL 积累、AlphaGo 基础、背景工作、有迹可循。

但 o1 这种东西不只是“研究 idea”。它还是组织能力、算力调度能力、评测能力、产品判断能力、叙事能力的合成。

所以你如果真想做“o1 级别的创新与影响力兼备的工作”,不能只问:

技术上它来自哪里?

还要问:

什么样的组织结构能承载这种探索?

这对你尤其重要。因为你不是纯个人研究者,你是 infra lead。你的可迁移优势不一定是单人提出一个新算法,而是:

把一个还不稳定的研究方向,做成可被团队、社区、公司持续迭代的系统。

slime 已经有这个雏形。下一步不是简单“再做一个 slime”,而是思考:

什么样的 infra 可以在新范式出现前就站到它的必经之路上?

这句话可能比“做出 o1”更适合你。

基于这样的思考,我认为现在最核心的矛盾就是 agent 在没有简单的 verifiable reward 的情况下应该如何训练优化?这是不是一个真实的问题呢?简单想来,就有以下这些不确定的点:

  • 一方面的困惑在于,这是不是一个真的问题?因为 RL 貌似是通过 verification 和 generation 之间的 gap 来提升模型性能的,而 agent 任务是不是并没有这样的 gap?如果没有的话是不是就不应该通过 RL 的手段来做。如果不能用 RL 的手段来做,他应该怎么做呢?
  • 另一方面是,是不是冷启数据大于一切?因为对于 o1 之后的工作来说,冷启动这件事貌似都是踩在巨人的肩膀上,而如果我们希望去解决这个问题,应该就要自己做这个冷启动了。冷启动这件事应该从哪里学习呢?推荐系统是一个好的学习地吗?或者是不是可以认为现在的模型已经完成冷启动了呢?
  • 再或者是,我们是不是应该通过扩展更广的 agent 能力(比如说从 excel word 到啥 autocad, solidwork)来进行扩展,还是在现有的问题上深挖呢?这还是真的研究问题吗?是不是就是单纯的业务问题了呢?

GPT 5.5:

所以不能笼统地说 agent 不能 RL。应该分成三类:

A. 强可验证 agent 任务

代码、网页状态变更、数据库操作、部分办公自动化。

这类可以做 RLVR,或者至少可以做 outcome reward。它们是当前最适合起步的地方。

B. 弱可验证 agent 任务

长文档处理、复杂表格分析、企业流程、研究辅助、debug workflow。

这类没有单一答案,但可以构造局部 verifier:格式是否正确、引用是否一致、数值是否对齐、测试是否通过、用户约束是否满足、是否减少人工编辑量。

C. 难验证 agent 任务

战略规划、审美设计、科研选题、组织管理建议、多轮人机协作。

这类不适合直接套 RLVR。更可能需要 preference learning、过程监督、retrospective evaluation、human-in-the-loop,以及在线产品反馈。

但是这样就有新的问题,就是貌似现有的范式已经可以解决这些问题了,就是洗线上数据,抓反例,针对性优化,构造 sft 数据或者 reject sampling,然后更新人为评测。所以是不是可以认为 agent 其实已经解决了呢?需要解决的是现在 agent 这里想不到的事情。或者说 agent 是显学,而没有蕴含着下一个 o1?

以及我的直观感受是,目前的 agent 时代,在解决或者等待的,是 GPU 短缺的问题,这意味着当前的这些问题在一到两年后都不复存在,甚至可能活的还没有 slime 长。如果是这样,投身于此岂不是很不值。

GPT 5.5:

应该问:

agent 这堆显学噪音里,哪一个底层矛盾可能变成新的 scaling axis?

类似 slime 的机会,往往不是“大家都说要一个 RL 框架”时出现的,而是:

某个训练范式开始变得重要,但已有系统无法承载它。

对 agent 来说,你可以找这种“现在想不到,但一旦 scale 就会爆”的问题。

那进一步来说,inference 优化,kernel 优化,是不是也都不是很有做大事情的空间了?因为他们貌似就是普通的 infra 优化,在 ai 的不断提升的情况下,会被一一解决的

GPT 5.5:

你真正应该关注的是:

AI 能力提升之后,新的 workload 会把哪些系统假设打碎?


GPT 5.5:

pretrain 只看到 loss。 serving 只看到 latency。 post-training 看到模型行为。 产品看到用户反馈。 infra 看到所有人如何互相伤害。

这是一种很特殊的信息位置。

如果你只是被动接需求,这个位置很痛苦。 但如果你能抽象问题,这个位置很有战略价值。

很多新 infra 机会就来自这种夹缝: