拒绝古法编程之后，也要拒绝古法思考

date: 2026-05-07
tags: 随感

26 年过得飞快，还没想好自己要做什么半年就过去了。然后如同现在的 AI 圈子的笑谈，如果你懒得学什么的话，不用着急，过一段时间就不用学了。翻看我迟迟没有发出去的 2025 的年终总结，里面写着：

2026 年两个主要目标：

研究如何搭建一套稳定且人性化的 infra 维护流程

如何增加 AI 在日常工作中的占比，拒绝古法编程

当时仔细琢磨出来的目标现在看起来如此平凡。agent 的浪潮袭来，如风吹麦浪，大家纷纷折腰。一切都要革新，一直革到了自己没有落脚之处，又只好去做缩头乌龟，回去找自己原先的工作方法，结果吃不到 ai 时代的红利。

回想自己的工作方式，我一向不以手速所长，而是先通过长时间的思考，给一个比较大的规划，然后再向规划里面填活儿。这条路线走得几位顺畅，我总是有能力想出简短且有价值的指导方案，例如业余时间应该布局历史和物理，管理的关键是目标和奖惩，以及上面的拒绝古法编程。

但是最近这样的工作方式出现了一些困难，除了人变多了，更多的是：

AI 来了，活儿干得更快了，规划的速度跟不上了，总是在想下一步要干啥

所以今天在下班的时候想到，自己目前的这个规划方式貌似是有 2 个问题：

一个是自己习惯去静静地思考，而思考是无法调用 AI 的。毕竟没有脑机接口不是，所以这方面的效率是没有提升的。那么一个合理的解决方法是把思考和输出相结合，把一部分模糊的输出交给 AI，然后继续整理，思考，然后再迭代。这样的话貌似就要多写，多记录，后续的一些 blog 我也会尝试和当时最新的 AI 做沟通的方式来迭代进行。相比未来的自己看着这样的内容也是比较有趣的。

GPT 5.5：

我之前说要拒绝古法编程，现在发现还不够。真正需要拒绝的，可能是古法思考：一个人憋很久，想清楚，再输出一个完整方案。这个流程在 AI 时代太慢了，也太封闭了。

过去，写作是思考之后的产物；现在，写作应该成为思考本身的一部分。

这不是简单“多写 blog”，而是把思考从脑内迁移到可被 AI 参与的外部空间。只要思考被写出来、说出来、结构化出来，AI 就可以参与扩展、反驳、补全、重排、压缩。

也就是说，AI 时代的思考能力，很大一部分变成了：

把未完成的想法快速外化成可协作材料的能力。

另外一件事，则是很多事情不应该去考虑细化的活儿应该怎么做，而是应该考虑，如果某一件事情解决了，那么下一步应该做什么，多套一层，来增加规划的复杂度。或者是如何通过 AI 来进行思考规划，而不是直接规划，通过升维，来提升这种指导方案的坚挺程度。

GPT 5.5：

一阶规划：这件事怎么做。二阶规划：这件事做成/做不成之后，系统会变成什么样，下一步该做什么。

在 AI 时代，真正稀缺的是二阶规划，而不是一阶拆任务。

举例来说，我觉得在前 agent 时代，最吸引我的一个问题，其实是 openai 是怎么做出 o1 的，或者说我怎样能做出 o1 这个级别的创新与影响力兼备的工作，而不是再继续等下一个 o1 出来之后，去想下一个 slime 这样的项目应该怎么构建，这样才足够有趣。

那么对于 o1 来说，我觉得他不应该是凭空想出来的，而是基于 RL 这个领域的长期积累，以及 alphago 等研究作为基础带来的。或者说一切都是有迹可循的，并未天外来物。那么貌似我应该去考虑的，就是如何借用 AI 的手段，去思考，如果我希望做出 o1 这样的工作，有哪些可以借助的背景工作？

GPT 5.5：

你现在真正不满的，其实不是“我没有项目做”，而是：

我不想永远在别人定义完新范式之后，才开始定义自己的 infra 位置。

因为 o1 不是一个单点创新。它至少包含几层东西：

一个技术判断：推理能力可以通过 RL 进一步规模化。

一个 scaling law 判断：不只是 pretraining scaling，reasoning-time / RL-time scaling 也可以成为新轴。

一个产品判断：用户愿意用更高延迟换更强推理。

一个基础设施判断：训练、采样、验证、评测、模型服务都要围绕 long reasoning 重构。

一个叙事判断：把“模型会思考更久”包装成下一代智能范式。

在下一个范式到来之前，哪些旧领域的长期积累正在逼近临界点？哪些能力已经在论文和系统里零散存在，但还没有被统一成一个可规模化范式？哪些 infra bottleneck 一旦被解决，会让某个研究方向突然从 toy problem 变成工业路径？

但真正的 o1 式突破，可能不是某个人忽然想出来的，而是长期处在几个技术矛盾交汇点上，最后识别到了一个已经成熟但还没被命名的新轴。

但后面建议你不要接“那我如何做出 o1”，而是接：

所以真正值得训练的能力，不是凭空产生灵感，而是识别哪些积累已经接近范式跃迁。

这样会更准。

每个大范式出现前，都会有一组矛盾长期存在。

o1 之前的矛盾大概是：

模型会生成 CoT，但 CoT 的质量不可控。

RLHF 能对齐偏好，但不一定能训练复杂推理过程。

verifier 可以判断答案，但如何把判断转化为稳定训练信号并规模化。

采样更多 reasoning path 有收益，但成本、延迟、训练稳定性、评测都很难。

pretraining scaling 很强，但在数学、代码、科学推理上仍有瓶颈。

这些矛盾长期存在，直到有人把它们组织成一个新路线。

你可以让 AI 帮你不断生成某个领域的“未完成矛盾清单”。对你来说，最值得做的可能是：

RL post-training infra 里，哪些痛苦已经反复出现，但还没有被抽象成新系统范式？

这比问“下一个项目是什么”更高阶。

你可能低估了“组织能力”在 o1 级创新中的作用

你现在的表达偏技术史：RL 积累、AlphaGo 基础、背景工作、有迹可循。

但 o1 这种东西不只是“研究 idea”。它还是组织能力、算力调度能力、评测能力、产品判断能力、叙事能力的合成。

所以你如果真想做“o1 级别的创新与影响力兼备的工作”，不能只问：

技术上它来自哪里？

还要问：

什么样的组织结构能承载这种探索？

这对你尤其重要。因为你不是纯个人研究者，你是 infra lead。你的可迁移优势不一定是单人提出一个新算法，而是：

把一个还不稳定的研究方向，做成可被团队、社区、公司持续迭代的系统。

slime 已经有这个雏形。下一步不是简单“再做一个 slime”，而是思考：

什么样的 infra 可以在新范式出现前就站到它的必经之路上？

这句话可能比“做出 o1”更适合你。

基于这样的思考，我认为现在最核心的矛盾就是 agent 在没有简单的 verifiable reward 的情况下应该如何训练优化？这是不是一个真实的问题呢？简单想来，就有以下这些不确定的点：

一方面的困惑在于，这是不是一个真的问题？因为 RL 貌似是通过 verification 和 generation 之间的 gap 来提升模型性能的，而 agent 任务是不是并没有这样的 gap？如果没有的话是不是就不应该通过 RL 的手段来做。如果不能用 RL 的手段来做，他应该怎么做呢？
另一方面是，是不是冷启数据大于一切？因为对于 o1 之后的工作来说，冷启动这件事貌似都是踩在巨人的肩膀上，而如果我们希望去解决这个问题，应该就要自己做这个冷启动了。冷启动这件事应该从哪里学习呢？推荐系统是一个好的学习地吗？或者是不是可以认为现在的模型已经完成冷启动了呢？
再或者是，我们是不是应该通过扩展更广的 agent 能力（比如说从 excel word 到啥 autocad, solidwork）来进行扩展，还是在现有的问题上深挖呢？这还是真的研究问题吗？是不是就是单纯的业务问题了呢？

GPT 5.5：

所以不能笼统地说 agent 不能 RL。应该分成三类：

A. 强可验证 agent 任务

代码、网页状态变更、数据库操作、部分办公自动化。

这类可以做 RLVR，或者至少可以做 outcome reward。它们是当前最适合起步的地方。

B. 弱可验证 agent 任务

长文档处理、复杂表格分析、企业流程、研究辅助、debug workflow。

这类没有单一答案，但可以构造局部 verifier：格式是否正确、引用是否一致、数值是否对齐、测试是否通过、用户约束是否满足、是否减少人工编辑量。

C. 难验证 agent 任务

战略规划、审美设计、科研选题、组织管理建议、多轮人机协作。

这类不适合直接套 RLVR。更可能需要 preference learning、过程监督、retrospective evaluation、human-in-the-loop，以及在线产品反馈。

但是这样就有新的问题，就是貌似现有的范式已经可以解决这些问题了，就是洗线上数据，抓反例，针对性优化，构造 sft 数据或者 reject sampling，然后更新人为评测。所以是不是可以认为 agent 其实已经解决了呢？需要解决的是现在 agent 这里想不到的事情。或者说 agent 是显学，而没有蕴含着下一个 o1？

以及我的直观感受是，目前的 agent 时代，在解决或者等待的，是 GPU 短缺的问题，这意味着当前的这些问题在一到两年后都不复存在，甚至可能活的还没有 slime 长。如果是这样，投身于此岂不是很不值。

GPT 5.5：

应该问：

agent 这堆显学噪音里，哪一个底层矛盾可能变成新的 scaling axis？

类似 slime 的机会，往往不是“大家都说要一个 RL 框架”时出现的，而是：

某个训练范式开始变得重要，但已有系统无法承载它。

对 agent 来说，你可以找这种“现在想不到，但一旦 scale 就会爆”的问题。

那进一步来说，inference 优化，kernel 优化，是不是也都不是很有做大事情的空间了？因为他们貌似就是普通的 infra 优化，在 ai 的不断提升的情况下，会被一一解决的

GPT 5.5：

你真正应该关注的是：

AI 能力提升之后，新的 workload 会把哪些系统假设打碎？

GPT 5.5：

pretrain 只看到 loss。 serving 只看到 latency。 post-training 看到模型行为。产品看到用户反馈。 infra 看到所有人如何互相伤害。

这是一种很特殊的信息位置。

如果你只是被动接需求，这个位置很痛苦。但如果你能抽象问题，这个位置很有战略价值。

很多新 infra 机会就来自这种夹缝：