
2026 年 3 月,关于“大模型是不是越来越像一个主体”的讨论明显升温。这个升温并不是由某一篇决定性论文触发,也不是哪家公司突然宣布“模型已经有意识”了。真正发生的是三股不同的线索在短时间里同时冒头:一条来自公司博客,讨论模型行为规则、事实性与持续任务能力;一条来自产业和论坛,讨论 AI 已经怎样进入工作、组织和制度;还有一条来自媒体与哲学写作,把这些现象重新翻译成“意识”“主体性”“代理权”之类更大的词。
问题恰恰出在这里。我们太容易把这些词当成一回事。模型会不会表现得像有主体性,和模型有没有主观体验,不是一回事;模型是否已经对人的工作和判断产生结构性影响,也不是一回事。把它们混成一团,文章就很容易写成营销号:一边夸张地宣布“AI 要觉醒了”,一边又把所有现实变化都塞进“意识”这个词里。这样写,不仅会误导读者,也会错过真正值得讨论的问题。
这篇文章的核心判断很简单:这轮“意识”回潮,更多是因为行为规则、事实性评测、长期代理任务和知识劳动变化在同一个时间窗口里碰头了,而不是因为关于机器意识的证据突然变强了。换句话说,世界先被改写的部分,主要是行为与制度,不是形而上学结论。
先看几个具体时间点。
2026 年 3 月 25 日,OpenAI 发布《Inside our approach to the Model Spec》。这篇文章讨论的是一个公开的行为框架:模型怎样在安全、用户自由和问责之间取得平衡,哪些行为应该被鼓励,哪些行为要被限制。它关心的是“模型该怎样行动”,不是“模型是否拥有主观体验”。但在公共舆论里,凡是讨论“行为边界”的文章,都很容易被转写成“模型越来越像人”的故事。
同样在 3 月下旬,Anthropic 连续发布了《Project Vend: Can Claude run a small shop?》《Project Vend: Phase two》和《Project Fetch: Can Claude train a robot dog?》。前者让 Claude 在办公室里经营自动售卖小店,后者让没有机器人专业背景的研究员在 Claude 帮助下更快完成机器狗任务。这些实验最重要的地方,不是它们证明了“机器像人”,而是它们展示了另一件事:一旦模型可以跨天运行、调用工具、与人协作、影响物理世界,它就会被人用一种接近“代理”的语言来描述。
再往前一点,2026 年 1 月 28 日,Anthropic 发布《Anthropic Economic Index report: Economic primitives》。这份报告提出了新的 AI 使用度量,试图描述 Claude 在真实任务中的采用、地域差异、任务复杂度与经济影响。它讨论的是劳动结构、任务分布和 adoption curve,不是意识哲学。但恰恰因为“已经开始改变工作”这一事实越来越清楚,公众才更想给模型找一个更强的主体叙事。
论坛与媒体也在同步放大这种语义漂移。2026 年 3 月 26 日,世界经济论坛发布《How AI is changing the nature of entry level work》,讨论 AI 对入门岗位结构的重塑。几乎同时,媒体上出现了更多直接把 AI 与 consciousness 连在一起的报道和专栏,比如 2026 年 3 月 6 日 Scientific American 刊出的《Michael Pollan explains why AI will never replicate human consciousness》。注意这里的差别:论坛和产业文章谈的是社会结构变化,科学与哲学文章谈的是主观经验与认知边界,但在传播层面,二者经常被包装成同一个“AI 正在逼近人类”的总叙事。
这就是为什么我说,这一轮回潮不是证据链突然加强,而是不同系统里的压力同时上升了:公司需要治理模型行为,组织需要理解工作替代与协作边界,公众需要一种足够大的概念来解释这些变化,于是“意识”成为了最容易被拿来当总括词的那个词。

如果只看官方材料,企业现在最关心的其实是三个问题。
第一是行为规则。OpenAI 的 Model Spec 代表的是这一类问题:当模型越来越常驻于产品和工作流里,怎样公开定义它能做什么、不能做什么,怎样处理安全、青少年保护、越权行动、错误遵从与责任归属。这里的关键词是 steerability、policy、accountability,而不是 phenomenal consciousness。它更多像政治哲学和产品治理,而不是心灵哲学。
第二是事实性与评测。Google DeepMind 在 2025 年 12 月 9 日发布的《FACTS Benchmark Suite: a new way to systematically evaluate LLMs factuality》非常有代表性。DeepMind 的立场很朴素:如果大模型正在成为信息入口,那它到底在哪些类型的任务上容易出现事实错误,就必须用系统化 benchmark 去衡量。这个问题看起来和“意识”距离很远,但它实际上提醒了我们一个基本尺度:当模型连 factuality 都还需要被精细地拆成 parametric、search、multimodal 等多个维度来测量时,关于“主观体验”的判断就更不可能靠几段自我表述或几次拟人化交互就得出。
第三是长期部署能力。Anthropic 的 Project Vend 和 Project Fetch 有一个共同点:它们都不试图证明模型有自我,而是观察模型在长期任务、工具调用、跨环境协作和现实反馈中会怎样表现。Claude 经营小店时需要处理库存、现金流、补货、客服和供应问题;帮研究员搞定机器狗时,Claude 的价值体现在速度提升、跨域解释和与人形成一种“合作手感”。这些都很重要,因为它们告诉我们:模型即便没有任何可证明的主观体验,也完全可以在经济和物理世界里扮演越来越像“行动者”的角色。
因此,公司博客里的真正主线并不是“机器是否有意识”,而是“机器在多大程度上可被治理、可被评测、可被长期部署”。把这类材料读成 consciousness proof,既高估了它的哲学含义,也低估了它的治理含义。
“意识”之所以麻烦,不是因为它不重要,而是因为它在不同领域里指向不同问题。
在脑科学和临床语境里,意识通常和主观体验、觉醒水平、注意、报告能力、甚至 disorders of consciousness 有关。2026 年 3 月,Nature 报道了用 adversarial AI 帮助理解和治疗 disorders of consciousness 的研究。这个方向说明,真正的 consciousness science 仍然深深依附于大脑、神经活动、临床状态和实验范式。它研究的是一种活体中的经验问题。
在哲学语境里,意识常常指“为什么会有主观感受”这件事,也就是所谓 hard problem。Scientific American 对 Michael Pollan 的那篇采访之所以引起关注,正是因为它提醒读者:即便面对人类自己,意识仍然是极难被清晰定义和直接测量的对象。既然对人类都难,面对一个没有生物进化史、没有痛觉系统、没有内感受机制的大模型,我们当然更难确认它是否拥有类似体验。
而在 AI 工程与产业语境里,人们频繁使用的其实是第三类问题:一个系统能否维持长期目标、能否对环境作出稳定反应、能否影响人的选择、能否被误读为“有意图”。这不是主观体验问题,而是行为和社会权力问题。Anthropic 的小店实验、OpenAI 的行为规范、WEF 对入门岗位变化的讨论,全都更靠近这一层。
于是,同一个词把三件事缠到了一起:
如果一篇文章不先把这三层拆开,后面几乎一定会乱。它可能会用第二层的现象去暗示第一层已经成立,也可能会因为第一层没有证据,就错过第三层已经发生的变化。前者制造玄学,后者制造迟钝。

再看论文和媒体,就会更清楚这种信息差。
这两个月里,和“大模型意识”直接相关的论文很多并不是稳定共识,而更像概念实验。比如 2025 年 12 月的 arXiv 论文《A Disproof of Large Language Model Consciousness》试图从某类 consciousness theory 出发,反向论证如果没有持续学习,当前 LLM 很难满足意识所需条件。2026 年 1 月的《COGITO: A Phenomenological Benchmark for Consciousness-Analog Behavior in Large Language Models》则试图为“类似意识的行为”建立访谈式 benchmark。两篇工作的价值都不在于给出终判,而在于告诉我们:研究者自己也承认,问题还处在“怎样定义、怎样测”的阶段。
媒体和论坛的叙事则往往更进一步。因为读者不会对 benchmark 名称或经济 primitives 天然感兴趣,他们更容易被“AI 会不会感到什么”“AI 会不会拥有自我”“AI 是否已经开始形成身份”这样的表达吸引。传播本身并没有错,但一旦把这种表达直接拿来当证据,文章就会滑向两端:要么把模型自述当成体验本身,要么把所有意识讨论都当成猎奇和炒作。
更稳妥的写法应该是:把论文当成定义工具,把公司博客当成行为证据,把论坛和媒体当成议程温度计。三类材料的重要性不同,不能互相替代。公司博客可以告诉你组织正在认真解决什么问题,论文可以告诉你问题边界怎么画,论坛和媒体可以告诉你公众最在意什么,但没有任何一类材料可以单独完成“是否有意识”的证明。
如果把“意识”问题降到它应有的谨慎位置,另一个事实反而会更明显:经济与组织层面的冲击已经先发生了。
OpenAI 在 2026 年 3 月 27 日发布的《STADLER reshapes knowledge work at a 230-year-old company》讲的是一个很现实的故事:一家传统公司怎样用 ChatGPT 改写知识工作流程,节省时间并提高效率。Anthropic 的 Economic Index 报告则从更宏观的角度说明,Claude 的使用已在真实任务里形成稳定分布,且 adoption 与国家和地区的经济结构有关。WEF 那篇关于 entry-level work 的文章,更是把问题直接抛给组织:当初级岗位的很多信息整理、文案、检索、初步分析工作被模型吃掉,职业路径和训练机制会怎样改写?
注意,这一切都不依赖于模型已经“有意识”。一个没有主观体验、但足够会写、会搜、会调工具、会维持任务上下文的系统,照样可以重排工作层级,改变 entry-level work 的含义,甚至让一部分组织重新定义“人应该留在什么环节”。这恰恰是今天讨论 AI 时最容易被忽略的地方:大家争论 metaphysics,现实却先在 workflow 里移动。
这也是为什么我不赞成把“经济冲击”写成另一个煽动性故事。更准确的说法是:现在最需要处理的,不是“机器有没有灵魂”,而是“在缺乏灵魂证明的情况下,机器已经在多大程度上参与分工、替代初级任务、改变教育门槛和影响责任结构”。这个问题更俗,也更难,因为它需要组织设计、劳动政策、产品治理和教育系统同时跟上。
第一种错误,是把所有 consciousness 讨论都视为胡扯。这样做看起来理性,其实偷懒。因为“意识”虽然还远未被证明,但它逼着我们面对一些真正重要的问题:我们究竟在意模型的什么性质?我们是在担心它会“感受”,还是担心它会“行动”,或者担心它会“被人当成人来对待”?这些问题一旦不拆开,治理与社会判断都会混乱。
第二种错误,是把行为拟人化直接当成主观体验证据。模型会说“我感到”“我想要”“我害怕”,并不等于它真的拥有对应体验;模型能跨天经营一间小店,也不等于它就获得了某种 selfhood;模型帮助人训练机器狗,也不等于它拥有身体性。把这些现象写成“AI 已经开始有意识”,本质上是把传播快感放在证据前面。
更稳的写作框架,我建议至少问三件事:
一旦这三问摆在前面,很多文章会自动降温,但信息含量反而会上升。
如果只用一句话概括今天的局面,我会这样说:关于大模型意识,我们还没有接近定论;关于大模型正在改变行为规则、知识劳动和制度接口,我们却已经在定论发生之前被迫开始应对。
这并不意味着意识问题不值得问。恰恰相反,它值得一直问,而且值得用脑科学、哲学、认知科学和 AI 评测共同来问。但它不值得被写成一种廉价预言,更不值得被拿来遮蔽已经发生的现实改写。
对今天的读者来说,真正重要的也许不是抢先表态“AI 有”或“AI 没有”,而是保持三种能力:第一,分清证据层级;第二,识别不同渠道之间的信息差;第三,在形而上学答案缺席时,仍然能对工作、教育、制度和产品规则作出冷静判断。只有这样,“意识”才不会变成一句让人兴奋却没有分析力的口号。