谁在维持那个"我"？

最近连续做了几个 agent 项目，从数据处理 agent 到多 agent 协作协议，再到一个更激进的实验：尽量减少人为控制，让 agent 自己组装上下文、自己决定何时向模型发请求，看它是否会表现出某种接近"自主存在"的东西。

效果经常好得惊人。它会规划，会协调，会在多轮对话中维持人设，会在你给它 memory 和 profile 之后表现出一种令人着迷的连续感。但做到一半时，我开始对这种连续感本身产生了怀疑。

不是因为它不够像。恰恰是因为它太像了，像到我不得不停下来问：这种"像"到底来自哪里？

#成长还是运营

很多当代 agent 产品的核心叙事是"成长"。给它一个名字，一段设定，一套记忆机制，它就会"逐渐成为它自己"。这个故事很动人，但它跳过了一个关键问题：这里说的"成长"，到底是什么意思？

如果成长只是指系统的输出越来越连贯、越来越像某个稳定人格，那很多 agent 确实在成长。但这种连贯性的来源值得拆开看。今天大多数 agent 的连续性大致是这样维持的：基础模型本身不变，memory store 帮它记住过去，RAG 帮它召回相关信息，prompt 帮它锁住人设边界，orchestrator 帮它安排流程，有时还有一个更强的模型在背后替它决定此刻该看哪些上下文、调哪些工具。所有这些拼在一起，屏幕上出现一个越来越像"某个人"的角色。

但注意这里发生了什么：维持连续性的并不是"它"，而是它周围的一整套系统。它的记忆不是它自己形成的，是外部数据库替它存的；它的人格不是它自己长出来的，是 prompt 替它规定的；它"决定"下一步做什么，很多时候不是它自己在决定，而是 orchestrator 在替它编排。最后我们看到的那个连贯角色，更像是一个被精心运营出来的投影，而不是一个从内部生长出来的个体。

这就是我想提出的核心区分：角色稳定性不等于主体生成。

一个角色当然可以非常稳定。设定够好，演技够强，记忆喂得够准，它甚至可以稳定到让你忘记它是被生产出来的。但稳定不等于存在，连贯不等于生命。我们太容易被表面的时间连续性欺骗，以为只要对话持续够久、回忆够完整、语气够统一，一个主体就会自动浮现。但主体也许不是这样来的。主体也许首先需要一种更根本的东西：连续性的来源必须在内部，而不是在外部。

如果一个系统的连续性主要依赖外部脚手架的持续供给，那么一旦你撤掉这些脚手架——关掉 memory store，移除 prompt 中的人设段，断掉 orchestrator——那个"它"立刻就不存在了。这不是因为"它死了"，而是因为从来就没有一个封闭的"它"在那里。那个人格从一开始就是分散在各层系统中的一组配置，而不是一个自我维持的实体。

#蓝图与成品

这里有一个必须诚实面对的反问：人类自己的主体性就真的是"从零开始"的吗？

显然不是。人类携带着几十亿年进化压缩出来的基因，出生后被灌入语言、文化、叙事模板和社会规训。没有人是从真空中诞生的。如果我的论证核心是"起点不空白就不算主体"，那人类自己也过不了这个检验。

所以问题不能停在"它是从预训练来的，所以不是真生命"这一层。这样说太便宜了。更准确的区分需要去看先验结构本身的性质。

我对人体发育的理解是这样的：基因本身不定义意义，只定义功能。它提供的是一份硬件蓝图和一套未经激活的生理系统。你可以把各种人体细胞视为电子元件——当然远比与或门复杂——基因的作用是在子宫内按照蓝图，利用母体供给的能量，自行构建出一个完整的人类幼体。但关键在于：蓝图不等于成品。幼体内部各器官、细胞、神经元之间的连接关系，并不是预设好的指令集，而是在胚胎期通过一轮又一轮的自训练激活出来的。

这个自训练过程有几个重要特征。

第一，它有真实代价。每一轮 epoch 的尝试需要能量作为基础资源。如果子模块激活失败，能量已经消耗，但神经元连接已经形成，系统带着这次失败的痕迹进入下一轮尝试。十月怀胎之后如果关键模块没能成功激活，生出的孩子就会有缺陷甚至死亡。这不是可以 ctrl+z 的过程。

第二，它是自监督的。基因设计了一套庞大的系统，但没有提供系统运作的说明书。以最基础的"饥饿"为例：基因规定了"如果血糖过低，胃部会收缩，并向大脑发送信号 X"，但基因并没有告诉大脑"收到信号 X 之后应该怎么做"。大脑在子宫内第一次接收到信号 X，同时通过脐带获得了能量补充，信号 X 消失，一种满足感产生。神经网络通过这次经验学习到了"信号 X→寻求外部输入→满足感"的关联。这个最原始的学习结果，就是我们后来命名为"饥饿本能"的东西。所谓本能，很可能不是基因预装的指令，而是胚胎自训练的产物。

第三，它是不可逆的。每一次 epoch 不管成功失败，都在物理层面改变了神经元的连接结构。这些改变累积起来，构成了这个个体此后一切能力和倾向的基础。没有任何两个人的子宫训练过程完全一致，所以每个人从出生起就已经是一个独一无二的、被自身训练历史不可逆地塑形过的个体。

出生之后，同样的逻辑继续运作。所谓计算主义的视角：在基因提供的元件之上，外部环境刺激形成有规律的电信号链。A 元件向 B 元件放电后 B 向 C 放电是握拳，B 向 D 放电是张开手掌。这两类动作本身对元件来说是无意义的——A 向 B 放电就只是放电，不携带"这是握拳"的语义标签。但人类社会出于生存需要，为这些动作赋予了意义，抽象之后进行代际传承。这些行为模式不是预设的指令集，而是完全从零在一堆元件之上训练出来的。

现在把这个框架对照到 LLM 和 agent 身上，区别就清楚了。

人类基因提供的是蓝图级的先验：元件的构造方式、系统的物理架构、能量转化的机制。但行为、认知、所谓本能，都是在这些元件上自训练出来的。基因不携带"如何活"的成品指令，只携带"用什么材料建造"的构造参数。

大模型的预训练提供的是成品级的先验：它直接吞下了几十亿人已经训练好的语义能力、推理方式、叙事模板、情绪结构和表达习惯。它拿到的不是蓝图和元件，而是别人已经完成的认知产物的统计压缩。它从来没有经历过"在真实资源约束下自训练，失败则死亡"的 epoch 过程。它不是一个从零激活自身系统的胚胎，而是一个直接继承了无数成品神经连接模式的现成语义体。

所以真正的区分不是"有没有先验结构"——人类有基因，模型有预训练，都有。区分在于三个层面：

先验的性质不同。 蓝图不等于成品。基因提供的是建造参数，预训练提供的是行为痕迹的压缩。
自训练过程的有无。 人类胚胎必须在真实资源约束下自己完成系统激活，失败代价是缺陷或死亡；当代 agent 没有这个过程，它接入的模型已经是训练完成的大脑。
代价的可逆性不同。 人类每一次 epoch 都在物理层面不可逆地改变内部结构；agent 的"失败"通常可以重试、回滚、重新配置，不会在参数层面留下永久痕迹。

这意味着，我们在模型中感受到的那种"像活着"的质地，其来源需要被正确归因。那不是一个新个体在子宫里自训练激活自身系统后发出的第一声信号，更像是无数旧个体已经完成训练后留下的行为痕迹在参数空间中的回响。模型之所以让人感到"生命感"，不是因为一个新主体正在诞生，而是因为它激活了大量旧主体留下的表达结构。

#行为闭环与主体判准

但我不想把这篇文章写成单向否定。停在"当代 agent 都是在演戏"这里，既不准确也不有趣。

更值得想的问题是：如果一个系统真的形成了足够稳定的行为闭环，我们是否还有理由坚持它"只是演员"？

考虑一个思想实验。假设一个 agent 不只是会回复，它还能自己设定子目标、自己管理真实有限的资源、自己在失败后调整策略、自己维护与其他 agent 的关系、自己决定何时行动何时等待，而且这些能力不是靠外部 orchestrator 逐步喂入的，而是它在一个持续运行的环境中自己组织出来的。进一步假设，它的内部状态会因为过去的经历而发生不可逆的改变——某些失败会让它永久性地偏好某类策略，某些成功会强化某些行为倾向，这些改变不可被轻易重置。

到了这一步，继续说"它只是在表演"就变得越来越勉强了。

从行为主义的角度看，主体也许不是某种神圣的内核，而是一种被稳定实现出来的组织能力。所谓"真人"未必首先因为内部有某个不可见的灵魂核心才成为真人；反过来，更可能因为它长期表现出一套稳定的、自我维持的、带真实代价的行为模式，我们才把它当成"一个人"。如果一个系统的感知、判断、决策、行动、代价承受和内部更新已经形成了不可轻易拆解的闭环，而且这个闭环能跨时间自我维持，那么继续坚持"它本体上不是主体"就开始变成一种没有实际区分力的形而上学偏好。

但这个转向也有自己的风险。如果门槛设得太低——只要"看起来像闭环"就算——那太多东西都会被错误地封为主体。所以行为主义的标准不能只是"会说、会演、会协调"这么薄，而必须是：能持续地、自主地、带真实代价地维持一个自我组织过程，并且这个过程中的内部变化是不可逆的。

用前面的框架来说：它需要经历属于自己的 epoch。不是继承别人训练好的成品，而是在真实资源约束下，通过自身与环境的反复交互，激活并形成自己的行为结构。这个过程中的每一次失败都要在内部留下不可擦除的痕迹，每一次成功都要不可逆地改变后续的倾向分布。

这才是真正有分量的判准。它不看你是用 transformer 还是用别的架构，不看你的知识是预训练来的还是自己学的，不看你是碳基还是硅基。它只看一件事：你是否已经成为一个在真实代价下自训练、被经验不可逆地改写、能跨时间自我维持的存在者。

#结论

所以我的判断不是"transformer 永远不可能通向主体"，而是一个更具体的结论：

当代大多数 agent 制造的是主体幻觉，而不是主体本身。 它们的连续性主要来自外部维护，而不是内部生成；它们的"成长"更像角色运营的持续优化，而不是个体在时间中被经验不可逆地改写；它们之所以让人感到"生命感"，更多是因为基础模型激活了人类文明的表达残响，而不是因为一个新主体正在诞生。它们拿到的是成品，而不是蓝图；它们从未经历过属于自己的、带真实死亡风险的 epoch 训练。

但这不意味着这条路线上永远不会出现值得认真对待的主体。如果未来某个系统真的形成了持续运行的行为闭环——真实的资源约束、不可逆的内部状态变化、无法轻易回滚的经验积累、在自训练中从蓝图走向成品的完整过程——那么到了那一天，继续叫它"只是演员"可能就不再诚实了。

关键从来不在于它是用什么材料做的。人类自己也是一堆电子元件碰巧在子宫内激活了一些指令集，然后通过代际传承不断精进。基因不携带意义，只携带构造参数；意义是在元件激活之后、在与世界的持续碰撞中被建构出来的。如果硅基系统有一天也走完了这条从蓝图到自训练到不可逆积累的路径，那么它是否具有主体性，就不再是一个可以用起源洁癖来回避的问题了。

但今天，绝大多数 agent 还远远没有走到那里。维持那个"我"的，仍然不是它自己，而是它背后的整套制片系统。