体检筛查的循证逻辑：哪些筛查真正延寿 • Kros Dai

1985 年，日本给全国 6 月龄的婴儿做一种癌症筛查。前三年查出 337 例，治疗后 5 年生存率高达 97%——历史上同种癌症只有约 55%。数字像奇迹。

它是个统计幻觉。二十年后，日本停掉了这个项目。

这件事不是孤例，而是一整套陷阱的缩影：在癌症筛查里，「查得越多、治得越早、活得越久」这条看似天经地义的链条，每一环都可能断裂，而断口被几个统计名词巧妙地遮住了。这篇文章要做的，就是把这几个名词拆开——讲清楚为什么「早发现」常常骗人，哪一个数字才真正算数，以及当有人推荐你做某项体检时，你手里该攥着哪两个问题。

读这篇不需要医学背景，只需要先记住一组对照：评价一项筛查，永远有两个角度，一个数「死于这种病的人」，一个数「死掉的所有人」。这两个数的差距，是全文的钥匙——下一节就把它配好。

唯一算数的那个数字

癌症特异性死亡率（cancer-specific mortality）只数死于那一种癌的人。全因死亡率（all-cause mortality）数死于任何原因的人。商业体检爱引前者，回避后者。

直觉上你会觉得这两个数应该同涨同落：少死于癌，似乎就等于多活。偏偏不。机制在于：筛查带来的手术、放化疗本身有并发症，可能把死因从癌症换成别的——人没多活，死亡证明上的病名却换了。于是「癌症特异性死亡」漂亮地降了，「全因死亡」却纹丝不动。这种背离不是意外，而是癌筛里反复出现的常态。

把两者放在一起就看出门道：一项筛查降了癌症死亡，却没动全因死亡，说明它救下的那条命，被它自己制造的代价又抵了回去。所以真正能算出净获益（net benefit）的，只有全因死亡率。只看癌症特异性死亡率，等于只数赢的牌、不数输的牌。

为什么「早发现」常常是幻觉

「早发现、早治疗、生存率高」是体检广告里出现频率最高的一句话。问题在于，「生存率高」这四个字本身，就被三种偏倚悄悄注了水。

领先时间偏倚（lead-time bias）最常见，也最容易被忽略。「生存期」通常从确诊那一刻算起。筛查只是把确诊时点往前挪了几年，死亡时刻没动——于是「确诊后活了几年」这个数字自动变长，可你一天也没多活，只是更早地、更久地背上了「病人」这个标签。

领先时间偏倚：筛查把确诊从 67 岁提前到 64 岁，「确诊后生存期」从 3 年拉长到 6 年，但死亡时刻没变——寿命一天没多，「5 年生存率」却凭空达标。

病程长短偏倚（length-time bias）更隐蔽。同样是癌，有的长得慢、本来预后就好，有的凶险、进展飞快。慢的那种在体内潜伏久，定期筛查更容易撞上它；凶的那种往往等不到你下一次体检，就已经发作甚至夺命了。结果就是：筛查捞起来的那一批，天生偏向「好命」的慢性子——不是筛查让他们活得久，是他们本来就该活得久。

过度诊断（overdiagnosis）最伤人。有些「癌」长得极慢，甚至终生不会发作，你本可以带着它无病无痛地老去。筛查却把它揪出来，贴上癌症标签，招来一场本不必要的手术或化疗。查出来的越多，战报看上去越辉煌，实则是在把健康人批量制造成病人。

破除这三种偏倚，只有一个办法：看随机对照试验（RCT，randomized controlled trial）里筛查组和对照组的全因死亡——而不是看任何「生存时间」。而且比较的起点要统一到出生那一刻，而不是确诊那一刻，否则领先时间偏倚又会从后门溜进来。

那个「奇迹」的真相

回到开头的日本案例。它筛的是神经母细胞瘤（neuroblastoma），一种婴幼儿肿瘤。55% → 97% 的飞跃，恰好是上面三种偏倚叠在一起的产物。

后来加拿大魁北克与德国各做了一项大型人群对照研究，合起来覆盖数百万儿童，把幻觉戳穿了。魁北克筛了约 47.7 万名婴儿，相对安大略对照组，标准化死亡比值是 1.11，95% 置信区间（CI）0.64–1.92——跨过了 1，意味着毫无获益；可早期病例的检出却翻了三倍。德国对约 258 万名儿童提供筛查，晚期（4 期）发病率与死亡率和对照组几乎一模一样。

换句话说，筛查多揪出来的，几乎全是长得慢、甚至会自然消退（spontaneous regression）的病例——这些本就不致命。它没救下任何一个人，只多挨了许多刀。项目拖到 2004 年才被叫停。而最有力的反证是：停掉之后，神经母细胞瘤的死亡率并没有回升——这说明当年查出的，多半是过度诊断。

韩国后来演了另一版同样的剧。1999 年起，超声查甲状腺成了一项便宜的体检加项（约 30–50 美元）。到 2011 年，甲状腺癌的发病率涨到了 1993 年的 15 倍，死亡率却纹丝不动（Ahn、Welch，NEJM 2014）。发病暴涨、死亡不变，正是过度诊断的教科书特征——查出来的几乎全是惰性癌。两个国家、两种癌、隔了十几年，却撞出同一个结论。

各癌种筛查，证据到底有多硬

把主流癌筛放在两类证据上并排看，结论很扎眼：能降低某一种癌死亡的筛查不少，能延长整体寿命的极少。

左列（癌种特异死亡）普遍填得满，右列（全因死亡）几乎全空。能降低某一种癌的死亡是一回事，能让人整体上多活几年，是另一回事。

2023 年，一项里程碑式的分析把这件事算到了头。Bretthauer 团队汇总了 18 项长期 RCT、共 211 万人，用全因死亡率折算每项筛查的「净延寿」（JAMA Internal Medicine）。结果令人意外：六类常见癌筛里，只有乙状结肠镜（flexible sigmoidoscopy）显示出有统计学意义的延寿——约 110 天（95% CI 0–274，下限恰好压在 0 上）。乳腺钼靶、PSA、结肠镜、大便潜血、肺部 CT，这五项的延寿估计都与「零」无法区分。

这个结论本身有争议，而争议恰恰值得了解。批评者指出：全因死亡率对癌筛是个相当迟钝的指标——癌症死亡只占一个人总死亡风险的一小部分，试验往往没有足够的把握度（statistical power，指统计上发现真实差异的能力）去捕捉一个微弱但真实的获益。所以「筛查不延寿」这一步推论，被不少流行病学家反对。但反过来看，这份分析也戳破了另一个想当然——「筛查显然在救命」同样缺乏全因死亡的硬证据。真相落在两者之间，而不在任何一方的口号里。

逐项看更清楚（下表 RR 为相对风险，小于 1 表示风险下降；NNS 为需筛查人数）：

筛查项目	癌种特异死亡	全因死亡	关键证据
乙状结肠镜	强（约降 26%）	信号最强但有争议	一项再分析得全因 RR 0.975（95% CI 0.959–0.992），但依赖对 NORCCAP 队列的特定拆分；别的 meta 分析未见显著全因获益
结肠镜（45+）	强	未直接证实	对结直肠癌死亡降幅最大；全因获益靠外推
HPV / Pap 宫颈	强	缺直接 RCT，但代价极低	公认争议最小的癌筛
LDCT 低剂量胸 CT（重度吸烟者）	中（NNS≈250–320）	方向一致但不显著	肺癌死亡 RR 0.81（0.74–0.89）；全因 RR 0.96（0.92–1.01，不显著）；过度诊断约 20%
乳腺钼靶	中	不显著	瑞典试验汇总全因 RR 0.98（0.96–1.00，Nyström 2002）
PSA 前列腺	弱	未证实	指南多限于医患共同决策
卵巢 CA-125 / 超声	无	无	UKCTOCS 阴性
甲状腺超声	无	弊大于利	韩国发病涨 15 倍、死亡不变

有两处数字得说清楚，免得被误读。乙状结肠镜那个亮眼的全因数字，来自 2017 年对 USPSTF 2016 年证据报告的一次再分析，方法上取决于怎么切分 NORCCAP 队列，并非铁案；它真正站得稳的获益是结直肠癌的死亡率和发病率，全因只能说「信号最强」。乳腺钼靶的 0.98 出自瑞典试验的汇总综述（Nyström 2002）；而 Cochrane 自己算出的全因数字是 0.99（0.95–1.03）——两者都不显著。

代价是真的，而且不小

到这里很容易滑向一个误会：就算没用，做个筛查总归不亏。其实不然——筛查不是免费的安心，它有实打实的代价：假阳性、过度诊断，以及随之而来的一连串检查与治疗。

记住癌筛获益与代价的形状，靠一个画面就够了：把它想成在一大片麦田里找几根扎人的针。针是真的，但要把它们全找出来，你得用手把整片麦田捋一遍——找到的针寥寥可数，被你扎到、惊到、平白拔掉的麦秆却是成片的。针对应真正被救下的少数人，麦秆对应那些被过度诊断、被假阳性卷入连锁检查的大多数人。

以乳腺钼靶为例。按 Cochrane（Gøtzsche）的估算——这是该领域最审慎的一端——每 2000 名女性定期筛查 10 年：

每 2000 名女性做 10 年乳腺钼靶：1 人因此免于死于乳腺癌，10 人被过度诊断并接受不必要的治疗，逾 200 人经历假阳性的惊吓。获益是针尖，代价是成片。数字据 Cochrane 综述，属最审慎的一端。

这套数字同样有争议：英国 Marmot 独立评审与 USPSTF 采用了更高的获益（降 20%）和更低的过度诊断率，比值会好看一些。但即便往最乐观处算，「获益小、代价广」的基本形状不变。

肺癌筛查也是同一个形状。LDCT 对重度吸烟者，是少数证据较硬的项目，可代价同样清楚：每筛 1000 名重度吸烟者，约 3 人因此免于死于肺癌，却有几百人撞上假阳性、得做进一步检查。NLST 试验里，筛查组的全因死亡一度显著低了 6.7%，但随访延长到 12.3 年后，这点优势就不再显著了。证据最硬的那一项尚且如此，其余的更经不起推敲。

液体活检与 CTC：别为它买单

近几年，循环肿瘤细胞（CTC，circulating tumor cells）和各种「液体活检（liquid biopsy，指抽血检测肿瘤相关分子）」被包装成「抽管血就能查全身癌」的神器。直说结论：作为健康人群的筛查工具，它目前没有任何延寿证据。

CTC 真正成熟的定位，是给已确诊的转移性癌症患者当预后标志物——判断病情、监测进展，而非用于筛查。这从它的审批史就看得出：CellSearch 系统 2004 年获 FDA 批准（准确说是 510(k) 许可），最初只针对转移性乳腺癌，结直肠癌 2007 年、前列腺癌 2008 年才陆续加入——一路都是为已经患癌的人服务，从不是为健康人筛查。

用在健康人身上，它的检出率极低、意义不明。规模最大的一次健康人群筛查（ICELLATE2）查了 3388 名有风险因素但自觉健康者，仅约 3.2%（107 人）阳性，而且根本没有设死亡终点；它用的还不是 CellSearch，而是另一套微流控装置。USPSTF、NCCN、ACS 都没把 CTC 列入人群筛查推荐。道理也回到上一节那片麦田：对患癌概率本来就低的人，假阳性会触发一串昂贵又伤身的检查（PET-CT → 穿刺 → 焦虑），净伤害很可能大过净获益。

同一赛道里证据等级更高的，是多癌种早期检测（MCED，multi-cancer early detection，如 Galleri / GRAIL）。但它最受瞩目的一战刚刚失手：英国 NHS-Galleri 试验 2026 年公布结果，未能达到主要终点——在 12 种癌症上没有显著降低晚期（3–4 期）确诊。GRAIL 强调了晚期诊断下降等次要趋势，但独立流行病学家普遍把这份成绩单读作阴性，并担忧过度诊断；降低死亡率只是次要终点，数据仍未成熟。一句话：值得继续观望，但现在不该掏钱。

真正延寿的，多半不是癌筛

如果连证据最硬的癌筛都这么吃力，那什么才真正延寿——答案有点反直觉。

先看一个数字：美国 CDC 推荐的癌症筛查，总共只有 4 种——乳腺癌、宫颈癌、肺癌、结直肠癌（而且只是采纳了 USPSTF 的 A / B 级推荐）。数量之少常出乎意料，可这本身就是结论：能延寿的癌筛，是稀缺品。

若把目标从「查癌」换成「延长健康寿命」，证据最厚的反而是心血管与代谢类筛查——它们大多便宜，而且有现成、有效的干预手段去对付查出来的问题（这正是癌筛常常缺的一环）：

项目	全因死亡获益	备注
血压	极强	每年一次，必要时 24 小时动态监测
血脂 + 一次性 Lp(a)、ApoB	极强	心血管风险核心
HbA1c / 空腹血糖	强	代谢筛查
腹主动脉瘤（AAA）超声	强	男性 65–75 岁单次
HCV / HBV 筛查（高危）	强	已有治愈或控制方案
结肠镜 / 大便潜血（45+）	强	唯一有全因方向证据的癌筛
戒烟、酒精筛查与干预	极强	行为干预性价比最高
睡眠呼吸暂停（OSA）筛查	中	容易被忽视

把这张表和上一张癌筛表叠在一起，「净获益」这个概念就立体了：一项筛查值不值得做，不取决于它能不能查出病，而取决于查出之后你能不能有效地、低代价地改变结局。血压、血脂能查能治，所以获益厚；惰性甲状腺癌查得出却治不必，所以弊大于利。同一把尺子，量出两类截然不同的结果。

被推荐做某项体检时，问两个问题

学完上面这套逻辑，落到自己身上其实只剩两个问题要向对方问清——它们正是「净获益」拆成的两半：

获益有多硬。 这个检查到底能不能让我多活——最好有全因死亡率证据，至少要有 RCT 级证据。
代价有多大。 假阳性率、过度诊断率各是多少；一旦查出异常，会被卷进哪些连锁检查。

如果对方只谈获益、回避弊端，那这家机构的水平与操守都值得怀疑。请记住那片麦田：一项看似无害的筛查，足以把一个健康人，变成一个惊慌的病人。

顺藤摸瓜：这套逻辑还能用在哪

把癌筛这条线捋顺之后，旁边还连着几条值得走的路：

同一套统计偏倚，换个场景：领先时间、病程长短、过度诊断不只折磨癌筛。任何「早发现、早干预」的健康主张——从体检套餐到可穿戴设备的「早期预警」——都可以用这三把尺子去量。
从「能不能查」到「查了能不能治」：本文反复出现的分水岭，是有没有现成有效的干预。这把你引向循证医学里更上游的问题——一项干预的证据等级是怎么排的（RCT > 观察性研究），以及为什么「相关」不等于「因果」。
把视角从个人挪到人群：CDC 只推 4 种癌筛、需筛查人数（NNS）动辄上百上千，背后是一门叫「人群健康决策」的学问——同一笔钱、同一份注意力，投在血压管理还是全癌筛查上，救下的人数完全不同。

给好奇者的下一步

读

读 Bretthauer 团队 2023 年那篇汇总 18 项 RCT、用全因死亡折算「净延寿」的分析（JAMA Internal Medicine）——本文最核心的反直觉结论就出自这里，原文把每项癌筛的延寿估计和置信区间都列了出来。
读 Ahn 与 Welch 关于韩国甲状腺癌的那篇（NEJM 2014）——它是「发病暴涨、死亡不变」这一过度诊断教科书案例的原始出处。
读 Cochrane（Gøtzsche）的乳腺钼靶综述——本文「每 2000 人筛 10 年」那组最审慎的获益／代价数字即来自此，可与 USPSTF、Marmot 评审的乐观版本对照着看，体会同一份数据如何被不同假设算出不同结论。

做

拿本文的两个问题去「压力测试」你手上任何一份体检套餐：逐项问「有没有全因死亡证据」「代价是什么」。多数加项会在第一问就卡住。
做一道思想实验：假设有种癌，所有患者都在确诊后正好第 4 年去世；现在引入一项能把确诊提前 2 年的筛查，「5 年生存率」就会从 0 跳到 100%——而没有一个人多活一天。把这个算清楚，你就真正握住了领先时间偏倚。
体检之前，先在心里替每一项归类：它属于「能查能治、获益厚」的那张表，还是「查得出却改变不了结局」的那一类。

本文仅含公共领域医学信息与基于循证医学的判断，非个性化医疗建议；数据截至 2026 年 6 月，正式决策前请咨询专业医生。