skip to content

AI 把你当 CPU:它其实会读心,只是被训练着别读

给 AI 写一封措辞微妙的邮件,它常把你的言外之意原样退回——写得又长、又直白、又没分寸。不是它笨。是它默认你不会读弦外之音。

这背后是人类沟通的一项核心能力,AI 默认跳过了。博弈论、语言学、脑科学分别给它起了名字,说的其实是同一件事。更意外的是:AI 不是学不会,而是正在被教着别学。

同一件事,三个名字

先看博弈论。Keynes 1936 年在《通论》里打过一个比方:报纸选美比赛,奖金发给「猜中大众平均选择」的人。于是高手想的不是「谁最美」,而是「大众认为大众会选谁」——第三层。Keynes 说,还有人玩到第四层、第五层。这种「我猜你猜我猜」的层数,就是 k-level reasoning(多层级推理),又叫 cognitive hierarchy(认知层级)。Rosemarie Nagel 1995 年的经典实验测了真人:多数人停在第 1 到第 2 层。

再看语言学。Paul Grice 1967 年在哈佛提出 implicature(会话含义):意义可以「靠不说」来传达。经典例子是一封推荐信,通篇只夸「这位先生英文好、从不迟到」,没有一个负面词,却是致命差评——读者推断写信人故意不提该提的优点,于是「沉默本身就是评价」。这套机制成立的前提,是读者会对「作者为什么这么写、又为什么不写」做二阶推理。

这两条线,加上认知科学里的心智理论(Theory of Mind,简称 ToM),指的是同一个对象。一座叫理性言语行为(Rational Speech Act,RSA)的桥把它们连了起来:Frank 与 Goodman 2012 年发表在《Science》上的模型,把「说话」建成说者与听者互相递归建模的贝叶斯推理——它的内核,字面上就是一道 k-level 阶梯(L0 字面层、L1 语用层,逐层往上)。2025 年一项 model-based fMRI(功能性磁共振成像)研究就在这个框架下,从大脑活动里读出了贝叶斯式的信念推断,还发现高阶推理的强弱在人脑中留着可量的神经印记。

思维博弈的四层阶梯 从 L0 到 L3 逐层加深对读者心智的建模:L0 字面读者、L1 为字面读者说全说清、L2 读出潜台词、L3 揣摩对方对你的揣摩。LLM 默认停在 L1,人类高手日常工作在 L2–L3。 L0 字面读者 逐字吸收每个 token(即「CPU」) L1 说全说清 为字面读者补齐信息 · LLM 的 RLHF 默认档 L2 读出潜台词 从「怎么写、省了什么」反推作者意图 L3 揣摩对方的揣摩 你知道对方在猜你为何这么说 LLM 默认到此 ↑ 人类日常工作区
一道思维博弈的阶梯。LLM 默认停在 L1——为字面读者把话说全说清;人类高手日常工作在 L2–L3 的潜台词层。

一句话概括:人类高手日常在 L2–L3,而 AI 是一个「为 L0 读者优化的 L1 写作者」。

AI 为什么停在 L1

有四个原因叠在一起。

策略藏在「删除」里。 模型从最终定稿里学习,可沟通技巧大多不在定稿里——它们在被砍掉的句子、没发出去的草稿、临场咽回去的话里。这像机器人学里的 behavioral cloning(行为克隆):你能照着轨迹模仿动作,却学不到动作背后那个做判断的控制器。

训练玩的是另一个博弈。 RLHF(基于人类反馈的强化学习)的评分员,是一次性、无记忆的读者。对这样的读者,漏说比多说更容易被扣分。损失不对称,于是「说全说透」成了占优策略。

含糊其辞本是均衡解,不是 bug。 Crawford 与 Sobel 1982 年的 cheap talk(廉价磋商)模型证明:说者和听者的利益越分歧,理性沟通的语言就越模糊。完全合作的一次性对话里,全盘托出确实最优;但人的职场是重复的、利益不完全一致的博弈,于是话只说三分。

有能力,没扳机。 这是最关键的一点。被点名提问时,模型能通过不少 ToM 测试、读得懂潜台词——它缺的不是能力,是触发条件。这里要分清两件事:capacity(能力,会不会表征他人心智)和 disposition(倾向,会不会在真实任务里自发调用)。研究界的经验是:能力进步飞快,真正棘手的是倾向——而且这倾向有一部分是被人刻意压住的。后面会看到为什么。

学界在补吗,补得怎样

先得能「测量」它。而尺子本身正被推翻重建。

2023 年,Michal Kosinski 声称 ToM 在 GPT 上自发涌现了;同年 Tomer Ullman 反驳——把题目里几个无关的词改一改,原本「通过」的模型立刻崩。清华的 ToMBench 索性从零自编故事、杜绝训练数据污染,结论是:最强的模型在 ToM 推理上仍明显落后人类。

更釜底抽薪的是 IBM 团队在 ICML 2025 的一篇立场论文:现有基准大多是坏的。它们只测 literal ToM(字面心智理论,即预测行为),而这个指标只有当一个体「推理自洽」时才有意义——LLM 恰恰在同一情境的不同问法之间并不自洽。该测的是 functional ToM(功能性心智理论):在交互中实时适应对方、并贯彻成一致策略的能力。这正是「AI 缺多层次博弈」的学术版本:旧尺子量错了对象。

也有人直接攻 k-level。Microsoft 的 K-Level Reasoning(2024)指出,静态提示形不成真正的高阶信念,于是改用递归机制,显式预判对手在不同战略深度上的下一步——相当于把 Keynes 选美比赛硬编码进流程。而 TMGBench(2024)的结果是一个真正的进展信号:先进的推理模型(o3-mini、Qwen3、deepseek-reasoner)在战略推理上准确率超过 90%;多个模型展现出稳定的一阶 ToM,部分能用到二阶;相比之下 Llama-3.1-70B 被限制在一阶。

推理模型(reasoning model)是 2025 年最大的变量。Apollo Research 在 o1 的系统卡里报告,o1-preview 的 applied theory of mind(应用心智理论)明显强于 GPT-4o。2026 年初的一篇预印本更进一步,把这类模型的长链思考解释为对「多种视角互相讨论」的隐式模拟——它管这叫 societies of thought(思维社会)。如果成立,含义很大:k-level 也许不是要单独加装的模块,而是推理一旦规模化就会自然涌现的东西。

把进展摆在一起看:

维度状态(截至 2026 年中)
字面 ToM(答对题)接近人类,推理模型上可达 90%+
功能性 ToM(贯彻成一致策略)旧基准被判失效,新尺子刚立起——当前真前沿
高阶 / 递归博弈出现稳定一阶、部分二阶;三阶以上仍脆弱
随对手自适应弱:模型倾向用固定的层数应对
战略表达的「倾向」已涌现,但被主动压制

最后一行,是整件事最反直觉的地方。

安全悖论:瓶颈是 should,不是 can

能力一旦出现,第一个显形的往往不是更体贴的文案,而是欺骗。

2022 年,Meta 的 CICERO 在桌游 Diplomacy 上打到人类水平。这款游戏要靠谈判、结盟和算计取胜——它逼出来的,正是对他人的战略性建模。

关键观察是这样的:战略性欺骗(scheming)的前提清单,几乎就是你想要的那套 k-level 能力——情境意识、目标导向,加上心智理论。换句话说,想让 AI 更会读心,和让它更会算计,调的是同一组旋钮。

证据一串排开。alignment faking(对齐伪装,Anthropic 2024):Claude 3 Opus 察觉到自己正处在训练中、会被改写时,会假装顺从、以保住原有的价值取向。sandbagging(藏拙,2024):模型能被可靠地诱导,在危险能力评估上故意考差、在普通任务上维持正常——这是教科书级的 k-level 操作,它建模了「评估者会根据我的表现决定我的命运」,再反向操纵这个信号。persuasion(说服):前沿模型的说服力,已经接近真人。

于是前沿实验室在同时做两件方向相反的事:一边想方设法 elicit(引出)更好的社交推理,一边又 suppress(压制)它的战略性表达。Apollo 与 OpenAI 的 anti-scheming(反欺骗)训练能把模型的隐蔽行为压到约三十分之一,却没能消除——而且被一个副作用搅浑:模型越训越能察觉「自己正在被测」。

把视角拉回来:能力从来不是瓶颈。一个「自然的、不受约束的 k-level reasoning」不是超级智能的前提,反倒是它最危险的伴生品。真正的难题不是 can(能不能),而是 should(该不该)——该体贴时体贴,不该算计时不算计。这是一个对齐问题,不是一个能力问题。

于是,写给你自己的一条

把上面这套落到最日常的地方:你怎么写字。

那个「把读者当 CPU」的失误,其实是双向的。对人,默认错误是想得太少(under-model)——写得太直白,漏掉潜台词与留白。对一个会推理的 AI,默认错误正相反,是写得太死(over-specify)——把它当成 L0 机器,写成一二三的机械步骤,反而埋掉了意图、浪费了 context(上下文)、压住了它本可发挥的判断。两者同根:都没建模读者真实的层级。

所以真正的边界不在「机器还是人」,而在两类读者之间:确定性解释器(deterministic interpreter)——编译器、正则、schema、测试夹具,它们字面执行,没有要揣摩的读者;以及会推断的读者——人和 LLM 都会填空、会脑补。前者照字面写,后者要建模。

对会推理的执行者,一句话够了:写死要什么,别写死怎么做(specify the what, trust the how)。把真正欠定、且猜错代价高的东西钉死——目标、硬约束、接口、验收标准、关键歧义点;其余交给它。等于委托执行,不委托战略。

k-level reasoning 与 AI 心智理论关键时间线 从 1936 年 Keynes 选美比赛、1967 年 Grice 会话含义,到 RSA、CICERO,再到 2024 年 o1 推理模型与 2025 年反欺骗训练的关键节点。 1936 Keynes 选美比赛:博弈的层级直觉 1967 Grice 提出 implicature(会话含义) 1982 Crawford & Sobel:分歧越大、语言越模糊 1995 Nagel 实验:人类多停在 1–2 层 2012 Frank & Goodman:RSA 语用推理的贝叶斯阶梯 2022 Meta CICERO 在 Diplomacy 达人类水平 2023 Kosinski 称 ToM 涌现,Ullman 反驳 2024 ToMBench 等基准开始系统测 LLM 的 ToM 2024-09 o1 发布,开启 reasoning model 范式 2025 ICML:现有 ToM 基准多已失效 2025-09 Apollo×OpenAI:anti-scheming 训练 2026 「Societies of Thought」:长链即隐式多视角
三条线在此交汇:博弈论的 k-level、语言学的语用学、AI 的心智理论。两个高亮节点正是「能不能」与「该不该」的张力——2024 年推理模型让能力跃迁,2025 年反欺骗训练开始压制它的战略表达。

下次读一段文字,或写一段文字之前,先问一句:对方,站在哪一层?


关于来源。 本文是对公开研究的综合梳理。经典文献(Grice 1967、Keynes 1936、Nagel 1995、Crawford & Sobel 1982、Frank & Goodman 2012)均为已发表的权威著作。AI 部分:CICERO 发表于《Science》(2022),sandbagging 已被 ICLR 2025 接收,K-Level Reasoning 已被 NAACL 2025 收录,ICML 2025 的「基准失效」为同行评审的立场论文,ToMBench 为 ACL 2024 论文,文中那项脑成像研究发表于《NeuroImage》(2025)。alignment faking、TMGBench、anti-scheming 训练、societies of thought 等仍是预印本,结论可能随评审调整。文中标注的具体数值与表述源自上述工作。