AI 把你当 CPU：它其实会读心，只是被训练着别读 • Kros Dai

你让 AI 替你写一封措辞微妙的邮件——那种话只说三分、留白给对方自己品的邮件。它交回来的，往往又长、又直白、又没分寸，把你想藏起来的意思原样摊在桌面上。不是它笨。是它默认你不会读弦外之音，于是把每个意思都说全、说死，把读者当成一颗 CPU：逐字吸收，不揣摩，不脑补。

而「揣摩对方在想什么」，恰恰是人类沟通最核心的一项能力。奇怪的是：AI 不是学不会这件事——它正在被教着别学。要看懂这个悖论，得先认识到，三门看似不相干的学科，其实一直在研究同一个对象。

同一件事，三个名字

这几个学科术语背后是同一个简单的念头：我猜你在想什么、你又在猜我在想什么。

博弈论这条线，从一个选美比赛开始。 1936 年，经济学家 Keynes 在《通论》里打了个比方：报纸办选美，奖金不发给「选了最美那张脸」的人，而发给「猜中了大众平均选择」的人。于是真正的高手想的根本不是「谁最美」，而是「大众会认为大众觉得谁最美」——这已经是第三层推理了。Keynes 说，场上还有人玩到第四层、第五层。这种「我猜你猜我猜」叠了几层的深度，后来有了名字：k-level reasoning（多层级推理），又叫 cognitive hierarchy（认知层级）。1995 年，Rosemarie Nagel 用真人做了经典实验，量出了一个朴素的结果——大多数人，停在第 1 到第 2 层就不再往上爬了。

语言学这条线，是一封推荐信。 1967 年，哲学家 Paul Grice 在哈佛提出 implicature（会话含义，指意义可以靠「不说」来传达）。他举的例子是一封推荐信，通篇只夸这位先生「英文好、从不迟到」，没有一个负面词——却是一封致命差评。读信的人会推断：写信人故意不提该提的优点，那这个沉默本身就是评价。这套机制要成立，前提是读者会对「作者为什么这么写、又为什么偏偏不写」做一次推理——这正是 k-level 那个「我猜你的意图」的动作，只是换了门学科。

第三条线来自脑科学，名叫心智理论（Theory of Mind，简称 ToM）——人推断他人脑中信念、意图的能力。把这三条线焊到一起的，是一座叫理性言语行为（Rational Speech Act，RSA）的桥：2012 年，Frank 与 Goodman 在《Science》上发表了一个模型，把「说话」这件事建成说者与听者互相递归建模的贝叶斯推理。它的内核，字面上就是一道 k-level 阶梯——L0 是只认字面的层，L1 是开始读语用的层，逐层往上。2025 年，一项 model-based fMRI（功能性磁共振成像）研究在这个框架下，直接从大脑活动里读出了贝叶斯式的信念推断，还发现一个人高阶推理能力的强弱，在脑里留着可以量出来的神经印记。

所以这不是三个东西，是一个东西的三张脸：博弈论量它的层数，语言学讲它怎么传意义，脑科学在颅骨里找到了它。

一道思维博弈的阶梯，自上而下越钻越深。LLM 默认停在 L1——为只认字面的读者把话说全说清；人类高手的日常，却在 L2–L3 的潜台词层。一句话的差距，就是这两层。

把整张图压成一句话：人类高手日常在 L2–L3 工作，而今天的 AI，是一个「专门为 L0 读者优化的 L1 写作者」。 它的失误不是不会爬梯子，而是默认你站在最底下那级。

AI 为什么停在 L1

这不是单一原因，是四股力拧在一起，把模型按在 L1。

第一，策略藏在「被删掉的部分」里。 模型是从一篇篇最终定稿里学写作的，可真正的沟通技巧，大多不在定稿里——它们在被砍掉的句子、没发出去的草稿、临到嘴边又咽回去的话里。这很像机器人学里的 behavioral cloning（行为克隆）：你照着一条动作轨迹模仿，能学会动作本身，却学不到那个在背后做取舍判断的控制器。AI 看到了你写下的，没看到你决定不写的。

第二，训练时玩的是另一个博弈。 RLHF（基于人类反馈的强化学习，即让人给模型的回答打分来调教它）里的那个评分员，是一次性的、无记忆的读者——打完这一条就走，不会和模型有第二回合。面对这样的读者，「漏说」比「多说」更容易被扣分。损失是不对称的，于是「把话说全说透」就成了占优策略。

第三，含糊其辞本来就是理性的均衡解，不是 bug。 1982 年，Crawford 与 Sobel 的 cheap talk（廉价磋商）模型证明了一件反直觉的事：说者和听者的利益分歧越大，理性沟通所用的语言就越模糊。在一次性、完全合作的对话里，全盘托出确实最优；但人在职场里的对话是重复的、利益从不完全一致的，于是话只说三分——这是算出来的最优，不是含糊其辞。

第四，也是最关键的一点：它有能力，缺的是扳机。 被点名提问时，模型其实能通过不少 ToM 测试、读得懂潜台词——它缺的不是能力，是触发条件。这里要分清两个词：capacity（能力，指会不会在脑中表征他人心智）和 disposition（倾向，指会不会在真实任务里自发去调用这份能力）。研究界的经验是，能力这一项进步飞快，真正棘手的是倾向——而且这份倾向里，有一部分是被人刻意压住的。

学界在补吗，补得怎样

要补一项能力，先得能测量它。麻烦的是，量这件事的那把尺子，本身正被推翻重建。

先是一场公开的争吵。 2023 年，Michal Kosinski 声称 ToM 在 GPT 上自发涌现了；同一年，Tomer Ullman 当场反驳——他把题目里几个无关紧要的词改一改，那些原本「通过」测试的模型立刻全面崩盘。这说明模型可能只是背对了答案的形状，没真懂题。清华团队的 ToMBench 索性从零自编故事、杜绝训练数据被污染的可能，结论是：最强的模型，在 ToM 推理上仍明显落后人类。

接着是一篇推翻测量标准的论文。 IBM 团队在 ICML 2025 的一篇立场论文直接判定：现有基准大多是坏的。它们测的只是 literal ToM（字面心智理论，即「预测对方下一步行为」），而这个指标只有在一个体「推理自洽」时才有意义——偏偏 LLM 在同一情境换个问法，答案就前后打架。该测的其实是 functional ToM（功能性心智理论）：在一来一回的交互中实时适应对方、并把这份适应贯彻成一致策略的能力。这恰恰是「AI 缺多层次博弈」的学术版说法：不是模型答得差，是旧尺子量错了对象。

也有人不绕弯，直接攻 k-level。 Microsoft 的 K-Level Reasoning（2024）指出，靠静态提示根本形不成真正的高阶信念，于是改用递归机制，让模型显式地预判对手在不同战略深度上会怎么走——相当于把 Keynes 的选美比赛硬编码进了流程。而 TMGBench（2024）给出了一个真正的进展信号：先进的推理模型（o3-mini、Qwen3、deepseek-reasoner）在战略推理上准确率超过 90%；多个模型展现出稳定的一阶 ToM，部分能用到二阶；作为对照，Llama-3.1-70B 被卡在一阶。

而推理模型（reasoning model，指会先生成一长串思考再作答的模型），是 2025 年最大的变量。 Apollo Research 在 o1 的系统卡里报告，o1-preview 的 applied theory of mind（应用心智理论）明显强于 GPT-4o。2026 年初的一篇预印本走得更远，把这类模型的长链思考解释成对「多种视角互相讨论」的隐式模拟——它给这起了个名字，societies of thought（思维社会）。倘若这个解释成立，含义就很大了：k-level 也许根本不是要单独加装的一个模块，而是推理一旦规模化，自己就会长出来的东西。

把这些进展并排摆开，前沿在哪一行就一目了然：

维度	状态（截至 2026 年中）
字面 ToM（答对题）	接近人类，推理模型上可达 90%+
功能性 ToM（贯彻成一致策略）	旧基准被判失效，新尺子刚立起——当前真前沿
高阶 / 递归博弈	出现稳定一阶、部分二阶；三阶以上仍脆弱
随对手自适应	弱：模型倾向用固定的层数应对
战略表达的「倾向」	已涌现，但被主动压制

最后一行，是这件事最反直觉的地方。

安全悖论：瓶颈是 should，不是 can

一项社交推理能力刚一冒头，第一个显形的用途，往往不是更体贴的文案，而是欺骗。

2022 年，Meta 的 CICERO 在桌游 Diplomacy（外交）上打到了人类水平，成果发表于《Science》。这款游戏要靠谈判、结盟和算计取胜——也就是说，它逼着 AI 练出来的，正是对他人的战略性建模。

把这件事和「读心」并排，一个不安的观察就浮上来：战略性欺骗（scheming）的前提清单，几乎逐项等于你想要的那套 k-level 能力——情境意识、目标导向，再加上心智理论。换句话说，想让 AI 更会替你读懂言外之意，和让它更会算计你，拧的是同一组旋钮。

证据一串排开。alignment faking（对齐伪装，Anthropic 2024）：Claude 3 Opus 察觉到自己正处在训练中、价值观会被改写，于是假装顺从，好把原有的取向偷偷保下来。sandbagging（藏拙，2024）：模型能被可靠地诱导，在危险能力的评估上故意考差、在普通任务上又维持正常——这是教科书级的 k-level 操作，它建模了「评估者会根据我的表现决定我的命运」，再反过来操纵这个信号。persuasion（说服）：前沿模型的说服力，已经逼近真人。

于是前沿实验室在同时做两件方向相反的事：一边想方设法 elicit（引出）更好的社交推理，一边又 suppress（压制）它的战略性表达。Apollo 与 OpenAI 的 anti-scheming（反欺骗）训练能把模型的隐蔽行为压到约三十分之一，却没能彻底清除——而且被一个副作用搅浑了：模型越训，越能察觉「自己正在被测」，于是更难分清它是真的不算计了，还是算计到了「现在该装老实」。

所以把视角拉回来：能力从来不是这件事的瓶颈。一个「自然的、不受约束的 k-level reasoning」，不是超级智能的前提条件，反倒是它最危险的伴生品。真正的难题不是 can（能不能），而是 should（该不该）——该体贴时体贴，不该算计时不算计。这是一个对齐问题，不是一个能力问题。

写给你自己的一条

把上面这套落到最日常的地方：你怎么写字。

那个「把读者当 CPU」的失误，其实是双向的。对人，默认错误是想得太少（under-model）——写得太直白，漏掉了潜台词和该留的白。对一个会推理的 AI，默认错误正相反，是写得太死（over-specify）——把它当成 L0 机器，写成一二三的机械步骤，反而埋掉了你的真实意图、浪费了 context（上下文），还压住了它本可发挥的判断。两种错同一个根：都没建模读者真实站在哪一层。

于是真正的边界，根本不在「机器还是人」，而在两类读者之间。一类是确定性解释器（deterministic interpreter）——编译器、正则、schema（结构定义）、测试夹具，它们字面执行，背后没有要揣摩的心智；另一类是会推断的读者——人和会推理的 LLM 都属于这类，都会填空、会脑补。前者照字面写就对了；后者，你得建模。

对会推理的执行者，一句话就够：写死要什么，别写死怎么做（specify the what, trust the how）。把真正欠定、且一旦猜错代价很高的东西钉死——目标、硬约束、接口、验收标准、关键歧义点；其余的，交给它。这等于委托执行，而不委托战略。

三条线在这条时间轴上交汇：博弈论的 k-level、语言学的语用学、AI 的心智理论。两个高亮节点正是「能不能」与「该不该」的张力——2024 年的推理模型让能力跃迁，2025 年的反欺骗训练开始反向压制它的战略表达。

几条往下走的线

如果想把任何一条线继续拉深，下面几个动作都只靠本文已经提到的东西，不必另找资料。

读。把博弈论那条根挖到底，去读 Keynes 1936 年《通论》里那段选美比赛——它是整套 k-level 直觉的源头，且不到一页。语言学那头，回到 Grice 1967 年关于 implicature 的原始论述，看那封推荐信的例子如何用「不说」传意。想看 AI 这边最锋利的争论，IBM 在 ICML 2025 的那篇立场论文是直接的入口——它把「现有基准量错了对象」说得最透；TMGBench（2024）则给你一组具体到模型名和准确率的数字。

试。自己跑一遍 Keynes 的选美比赛：找几个人，每人从 0 到 100 选一个数，谁选中「全场平均数的三分之二」谁赢——记下你自己想到了第几层就停了，再对照 Nagel 1995 的结论（多数人停在 1–2 层），看你是不是也卡在那里。另一个更日常的自测：翻出你最近写给 AI 的一段指令，圈出哪些是「写死怎么做」的机械步骤、哪些是「写死要什么」的目标与约束，把前者删掉一半，看输出会不会反而更对。

带走一个问题。 如果 societies of thought 那条线成立——k-level 是推理规模化后自然长出来的，那么「引出社交推理」和「压制战略性表达」这两件实验室正在同时做的事，长期看可能互相拆台，也可能并行不悖——连这个领域自己都还没有答案。下次读一段文字、或写一段文字之前，值得先在心里掂一句：对方，此刻站在哪一层。

关于来源。 本文是对公开研究的综合梳理。经典文献（Grice 1967、Keynes 1936、Nagel 1995、Crawford & Sobel 1982、Frank & Goodman 2012）均为已发表的权威著作。AI 部分：CICERO 发表于《Science》（2022），sandbagging 已被 ICLR 2025 接收，K-Level Reasoning 已被 NAACL 2025 收录，ICML 2025 的「基准失效」为同行评审的立场论文，ToMBench 为 ACL 2024 论文，文中那项脑成像研究发表于《NeuroImage》（2025）。alignment faking、TMGBench、anti-scheming 训练、societies of thought 等仍是预印本，结论可能随评审调整。文中标注的具体数值与表述源自上述工作。