体检筛查的循证逻辑:哪些筛查真正延寿
1985 年,日本给全国 6 月龄婴儿做一种癌症筛查。前三年查出 337 例,治疗后 5 年生存率高达 97%——历史上同种癌症只有约 55%。数字像奇迹。
它是个统计幻觉。二十年后,日本停掉了这个项目。
这篇讲清楚:为什么「早发现」常常骗人,哪一个数字才算数,以及当有人推荐你做某项体检时,该问哪两个问题。
唯一算数的那个数字
衡量筛查好不好,要看两种死亡率。分清它们,是读懂全文的关键。
**癌症特异性死亡率(cancer-specific mortality)**只数死于那一种癌的人。**全因死亡率(all-cause mortality)**数死于任何原因的人。商业体检爱引前者,回避后者。
二者常常背离。原因很简单:治好这个病,不等于多活几年。筛查带来的手术、放化疗本身有并发症,可能把死因从癌症换成别的,却没让人多活。**只有全因死亡率能算出净获益(net benefit)。**一项筛查降了癌症死亡,却没动全因死亡,说明它救的命被别的代价抵消了。
为什么「早发现」常常是幻觉
三种偏倚让早发现看起来比实际有用。
**领先时间偏倚(lead-time bias)**最常见。筛查把确诊时点往前挪,「从确诊算起的生存期」自然变长,可死亡时刻没变——只是你多背了几年「病人」的标签。
**病程长短偏倚(length-time bias)**更隐蔽。筛查更容易抓住长得慢、本来预后就好的肿瘤;凶险的快速进展型往往等不到下次筛查就已发作。于是筛查查出的那批,天生就是「好命」的一批。
**过度诊断(overdiagnosis)**最伤人。筛查检出本来终生不会发作的「惰性癌」,反而招来不必要的手术与化疗。查出来的越多,看上去战果越大,实则在制造病人。
破除偏倚的唯一办法,是看随机对照试验(RCT,randomized controlled trial)里筛查组与对照组的全因死亡,而不是生存时间。比较的起点也要统一到出生,而不是确诊那一刻。
那个「奇迹」的真相
回到开头的日本案例。它筛查的是神经母细胞瘤(neuroblastoma),一种婴幼儿肿瘤。55% → 97% 的飞跃,正是上面三种偏倚叠加的产物。
加拿大魁北克与德国随后做了两项大型人群对照研究,合计覆盖数百万儿童。魁北克筛了约 47.7 万名婴儿,相对安大略对照组的标准化死亡比值 1.11,95% 置信区间(CI)0.64–1.92,毫无获益,早期病例检出却翻了三倍。德国对约 258 万名儿童提供筛查,晚期(4 期)发病率与死亡率和对照组几乎一模一样。
筛查挑出的,几乎全是长得慢、甚至会自然消退(spontaneous regression)的病例——这些本就不致命。它没救下任何人,只多切了许多刀。项目 2004 年才被叫停。停掉之后,神经母细胞瘤的死亡率并没有回升,反证了当年查出的多是过度诊断。
韩国演过另一版。1999 年起,超声查甲状腺成了便宜的体检加项(约 30–50 美元)。到 2011 年,甲状腺癌发病率涨到 1993 年的 15 倍,死亡率却纹丝不动(Ahn、Welch,NEJM 2014)。发病暴涨、死亡不变,是过度诊断的教科书特征——查出来的几乎全是惰性癌。
各癌种筛查,证据到底有多硬
把主流癌筛在两类证据上的强度并排看就一目了然:能降低某一种癌死亡的筛查不少,能延长整体寿命的极少。
2023 年一项里程碑分析说清了这件事。Bretthauer 团队汇总 18 项长期 RCT、共 211 万人,用全因死亡率折算「净延寿」(JAMA Internal Medicine)。结果:六类常见癌筛里,只有乙状结肠镜(flexible sigmoidoscopy)显示出有统计学意义的延寿——约 110 天(95% CI 0–274,下限恰好压在 0)。乳腺钼靶、PSA、结肠镜、大便潜血、肺部 CT 的延寿估计都与「零」无法区分。
这个结论有争议:全因死亡率对癌筛是个迟钝的指标,癌症死亡只占总死亡的一小部分,试验往往没有足够把握度(statistical power)去捕捉微弱但真实的获益。所以「筛查不延寿」这步推论被不少流行病学家反对。但反过来,它也戳破了「筛查显然在救命」的想当然。
逐项看(下表 RR 为相对风险,小于 1 表示风险下降;NNS 为需筛查人数):
| 筛查项目 | 癌种特异死亡 | 全因死亡 | 关键证据 |
|---|---|---|---|
| 乙状结肠镜 | 强(约降 26%) | 信号最强但有争议 | 一项再分析得全因 RR 0.975(95% CI 0.959–0.992),但依赖对 NORCCAP 队列的特定拆分;别的 meta 分析未见显著全因获益 |
| 结肠镜(45+) | 强 | 未直接证实 | 对结直肠癌死亡降幅最大;全因获益靠外推 |
| HPV / Pap 宫颈 | 强 | 缺直接 RCT,但代价极低 | 公认争议最小的癌筛 |
| LDCT 低剂量胸 CT(重度吸烟者) | 中(NNS≈250–320) | 方向一致但不显著 | 肺癌死亡 RR 0.81(0.74–0.89);全因 RR 0.96(0.92–1.01,不显著);过度诊断约 20% |
| 乳腺钼靶 | 中 | 不显著 | 瑞典试验汇总全因 RR 0.98(0.96–1.00,Nyström 2002) |
| PSA 前列腺 | 弱 | 未证实 | 指南多限于医患共同决策 |
| 卵巢 CA-125 / 超声 | 无 | 无 | UKCTOCS 阴性 |
| 甲状腺超声 | 无 | 弊大于利 | 韩国发病涨 15 倍、死亡不变 |
两处数字要补正。乙状结肠镜那个亮眼的全因数字来自 2017 年对 USPSTF 2016 年证据报告的再分析,方法上取决于怎么切分 NORCCAP 队列,并非铁案;它真正稳的获益是结直肠癌死亡和发病率,全因只能说「信号最强」。乳腺钼靶的 0.98 出自瑞典试验的汇总综述(Nyström 2002),Cochrane 自己的全因数字是 0.99(0.95–1.03)——两者都不显著。
代价是真的,而且不小
筛查不是免费的安心。它有实打实的代价:假阳性、过度诊断、随之而来的连锁检查与治疗。
以乳腺钼靶为例。按 Cochrane(Gøtzsche)的估算——这是该领域最审慎的一端——每 2000 名女性定期筛查 10 年:
这套数字有争议:英国 Marmot 独立评审与 USPSTF 用更高的获益(降 20%)和更低的过度诊断率,比值会好看些。但即便往乐观处算,「获益小、代价广」的形状不变。
肺癌筛查同理。LDCT 对重度吸烟者是少数证据较硬的项目,可代价也清楚:每筛 1000 名重度吸烟者,约 3 人因此免于死于肺癌,却有几百人撞上假阳性、要做进一步检查。NLST 试验里筛查组的全因死亡一度显著低 6.7%,但延长随访到 12.3 年后这点优势就不再显著了。
液体活检与 CTC:别为它买单
循环肿瘤细胞(CTC,circulating tumor cells)和各种「液体活检(liquid biopsy)」近年被包装成抽血查全癌的神器。作为健康人群的筛查工具,目前没有任何延寿证据。
CTC 的真实定位是已确诊转移性癌症患者的预后标志物:CellSearch 系统 2004 年获 FDA 批准(准确说是 510(k) 许可),最初只针对转移性乳腺癌,结直肠癌 2007 年、前列腺癌 2008 年才陆续加入——都是用来判断预后、监测病情,不是筛查。
用在健康人身上,检出率极低、意义不明。规模最大的一次健康人群筛查(ICELLATE2)查了 3388 名有风险因素但自觉健康者,仅约 3.2%(107 人)阳性,且根本没有死亡终点;它用的还不是 CellSearch,而是另一套微流控装置。USPSTF、NCCN、ACS 都没把 CTC 列入人群筛查推荐。对患癌概率本来就低的人,假阳性会触发一串昂贵又伤身的检查(PET-CT → 穿刺 → 焦虑),净伤害很可能大过净获益。
同赛道证据等级更高的是多癌种早期检测(MCED,multi-cancer early detection,如 Galleri / GRAIL)。但它最受瞩目的一战刚刚失手:英国 NHS-Galleri 试验 2026 年公布结果,未能达到主要终点——在 12 种癌症上没有显著降低晚期(3–4 期)确诊。GRAIL 强调了晚期诊断下降等次要趋势。但独立流行病学家普遍把这份成绩单读作阴性,并担忧过度诊断。降低死亡率是次要终点,数据仍未成熟。一句话:值得继续观望,但现在不该掏钱。
真正延寿的,多半不是癌筛
美国 CDC 推荐的癌症筛查只有 4 种:乳腺癌、宫颈癌、肺癌、结直肠癌(且只是采纳 USPSTF 的 A / B 级推荐)。数量之少常出乎意料——这本身就说明,能延寿的癌筛是稀缺品。
若目标是延长健康寿命,证据最厚的反而是心血管与代谢类筛查,它们大多便宜、且有现成的干预手段:
| 项目 | 全因死亡获益 | 备注 |
|---|---|---|
| 血压 | 极强 | 每年一次,必要时 24 小时动态监测 |
| 血脂 + 一次性 Lp(a)、ApoB | 极强 | 心血管风险核心 |
| HbA1c / 空腹血糖 | 强 | 代谢筛查 |
| 腹主动脉瘤(AAA)超声 | 强 | 男性 65–75 岁单次 |
| HCV / HBV 筛查(高危) | 强 | 已有治愈或控制方案 |
| 结肠镜 / 大便潜血(45+) | 强 | 唯一有全因方向证据的癌筛 |
| 戒烟、酒精筛查与干预 | 极强 | 行为干预性价比最高 |
| 睡眠呼吸暂停(OSA)筛查 | 中 | 容易被忽视 |
被推荐做某项体检时,问两个问题
- 这个检查能让我获益吗?最好有全因死亡率证据,至少要有 RCT 级证据。
- 代价和风险是什么?假阳性率多高,过度诊断率多高,查出异常后会被卷进哪些连锁检查?
如果对方只谈获益、回避弊端,这家机构的水平与操守都值得怀疑。看似无害的筛查,可能把一个健康人,变成一个惊慌的病人。
本文仅含公共领域医学信息与基于循证医学的判断,非个性化医疗建议;数据截至 2026 年 6 月,正式决策前请咨询专业医生。