當一份試驗說「沒有比較差」，它到底在說什麼？

從試驗設計、ITT、Hazard Ratio 到統合分析的異質性，拆解臨床證據是如何被「設計」與「合成」出來的進階方法學。

進階 · 約 16 分鐘 ·#實證醫學#臨床試驗設計#統合分析#不劣性試驗#因果推論#醫學方法學

當一份試驗說「沒有比較差」，它到底在說什麼？

兩種降血壓藥的頭對頭試驗登上頂尖期刊，結論寫著：新藥「不劣於（non-inferior）」舊藥。新聞標題卻變成「新藥效果與老藥相當」。一位住院醫師問：「既然效果一樣，那為什麼要換更貴的新藥？」這個問題比它看起來深刻得多——因為「不劣性試驗」從設計之初，就不是為了證明兩者相等，而是在容忍一個事先講好的「可接受劣化幅度」之內，換取其他好處（更安全、更方便、更便宜）。

入門篇談過實證醫學（Evidence-Based Medicine, EBM）的三隻腳、證據金字塔、以及 ARR／NNT 這類療效指標。那是「怎麼讀一篇論文的結論」。這篇進階文章要走進更裡面一層：證據是怎麼被「設計」與「合成」出來的。同一批病人、同一個藥，換一種試驗設計、換一種統計分析、換一種統合方法，得到的數字可以截然不同。理解這層機制，你才不會被「有顯著差異」或「沒有顯著差異」這種表面結論牽著走。本文為醫學教育內容，不構成個人化醫療建議。

實證醫學進階概念示意圖

優越性、不劣性、等效性：問題決定設計

臨床試驗在動筆設計時，第一個要釐清的是「假設的方向」。這決定了整份試驗的統計架構，也決定了結論能說什麼、不能說什麼。

優越性試驗（superiority trial）：想證明「新介入比對照好」。虛無假設（null hypothesis）是「兩者沒有差別」，研究者希望用資料推翻它。傳統 RCT 多屬此類。
不劣性試驗（non-inferiority trial）：想證明「新介入沒有比舊的差太多（在可接受範圍內）」。它預設舊藥已被證實有效，新藥即使效果略遜，只要差距小於事先設定的「不劣性界限（non-inferiority margin, Δ）」，又有其他優勢（副作用少、口服取代針劑、價格低），就值得採用。
等效性試驗（equivalence trial）：想證明「兩者效果落在一個對稱的範圍內」，常見於學名藥（generic）的生體相等性（bioequivalence）研究。

關鍵在於：「沒有達到統計顯著差異」不等於「兩者相等」。這是 EBM 評讀中最常被誤用的一句話。優越性試驗若結果不顯著（p > 0.05），正確的解讀是「沒有足夠證據顯示有差異」，而非「證明了沒有差異」——可能只是樣本太小、檢定力（power）不足。要主張「兩者相當」，必須一開始就用不劣性或等效性設計，並事先定好那條 Δ 界限。

不劣性界限怎麼訂，是整個設計最敏感、也最容易被操弄的環節。界限訂得越寬鬆，新藥越容易「過關」，但臨床意義也越稀薄。一個惡名昭彰的陷阱是「生物蠕變（biocreep）」：第一代新藥「不劣於」原始有效藥、第二代「不劣於」第一代、第三代「不劣於」第二代……每一步都在容許範圍內小幅退步，幾代累積下來，最新的藥可能其實已經不比安慰劑好多少。這提醒我們：讀不劣性試驗時，那條 Δ 是不是合理、是怎麼從歷史試驗推導出來的，比 p 值重要得多。

ITT 還是 PP：你分析的是「分到誰」還是「吃了誰」

試驗做完，要把病人放進哪一組來算？這個看似技術性的選擇，會實質改變結論。

意向治療分析（Intention-to-Treat, ITT）：按照當初隨機分組的歸屬來分析，不管病人後來有沒有乖乖吃藥、有沒有中途換組、有沒有失聯。
依計畫分析（Per-Protocol, PP）：只分析真正完整遵照試驗計畫完成療程的人。

直覺上 PP 似乎更「乾淨」——只看真正接受治療的人，效果不是更真實嗎？但 ITT 才是優越性試驗的金科玉律，原因在於隨機化的價值。隨機分組之所以強大，是因為它讓兩組在已知與未知干擾因子上趨於平衡；一旦你因為「沒遵從」就把人剔除，這些人往往不是隨機脫落的——病情較重、副作用較大、依從性差的病人會系統性地被排除，破壞了隨機化建立起來的平衡，重新引入選擇偏誤（selection bias）。

更深一層：ITT 估計的是「指派這個治療策略」的效果（治療意圖效應），這恰恰最貼近真實臨床——醫師能決定的是「開不開這個藥」，沒辦法保證病人百分之百遵從。ITT 因為納入了不遵從者，通常會稀釋療效估計，使其偏向保守，這對優越性試驗是「寧可低估也不高估」的安全方向。

有趣的是，在不劣性試驗裡情況反轉：ITT 的稀釋效應會讓兩組看起來更接近，反而容易製造出「不劣」的假象。因此嚴謹的不劣性試驗要求 ITT 與 PP 兩種分析都做、且結論一致，才比較可信。同一個原則（ITT），在不同設計裡會偏向不同方向——這正是為什麼「分析方法」必須和「試驗問題」配套思考。

複合終點與時間事件：藏在 Hazard Ratio 裡的細節

許多大型試驗用的不是「有沒有中風」這種單一是非題，而是更複雜的結果結構，這裡有兩個進階概念值得拆解。

複合終點（composite endpoint）。 心血管試驗常用「主要不良心血管事件（MACE）」當主要結果，把「心血管死亡＋心肌梗塞＋中風」綁成一個複合指標。好處是事件數變多、統計檢定力提升、樣本可以小一點。陷阱是：複合終點把嚴重程度不同的事件當成等值。如果一個藥讓「死亡」沒變、卻大幅減少「需要再住院」，整體複合終點可能看起來改善亮眼，但驅動這個結果的其實是最不嚴重的那一項。評讀時要拆開看各個成分的個別貢獻，特別警惕「軟終點（soft endpoint，如住院、再灌流手術）撐起整個結果、硬終點（死亡）紋風不動」的情況。

時間事件分析（time-to-event / survival analysis）。 很多結果不只關心「有沒有發生」，還關心「多快發生」。這時會用 Kaplan-Meier 存活曲線描述各組隨時間的事件累積，並用 Cox 比例風險模型（Cox proportional hazards model） 算出風險比（Hazard Ratio, HR）。HR 是進階文獻最常見、也最常被誤讀的指標之一。

HR = 0.7 常被講成「降低 30% 風險」，但它和入門篇的相對風險（RR）不完全一樣：HR 是瞬時風險（hazard）的比值，反映的是「在任一時間點，治療組相對對照組發生事件的速率」。它的成立倚賴一個重要假設——比例風險假設（proportional hazards assumption）：兩組的風險比值在整個追蹤期間維持恆定。一旦兩條存活曲線交叉或先合後分（例如某些癌症免疫療法早期沒效、後期才拉開差距），單一 HR 就會誤導，這時要改看里程碑存活率（landmark analysis）或限制平均存活時間（restricted mean survival time）。看到一個漂亮的 HR，請順手追問：這兩條 Kaplan-Meier 曲線長什麼樣？比例風險假設成立嗎？

看一個例子：統合分析裡的「異質性」

假設你讀到一份統合分析（meta-analysis），整合了 8 份探討「某抗凝血劑預防靜脈栓塞」的 RCT，森林圖（forest plot）最下方的菱形（pooled estimate）顯示 RR = 0.75（95% CI 0.62–0.91），看起來證據充分。但別急著下結論，先看一個常被忽略的數字：I²（異質性指標）= 78%。

I² 衡量的是「各研究結果之間的差異，有多少比例來自真實的研究間異質（heterogeneity），而非單純抽樣機運」。粗略分級：

I² 約 0–40%：異質性可能不重要。
I² 約 40–60%：中度異質。
I² 約 60–90%：高度異質——這正是我們的例子。

I² = 78% 是個警訊：這 8 份研究可能根本不在測同一件事。也許其中幾份用的是不同劑量、不同病人族群（術後 vs 內科住院）、不同追蹤長度。此時把它們硬「平均」成一個數字，那個漂亮的 RR = 0.75 其實意義不大——就像把蘋果和橘子的重量平均。

這也牽涉到統合分析的兩種模型選擇：

固定效應模型（fixed-effect model）：假設所有研究在估計同一個真實效果，差異純粹來自抽樣誤差。異質性低時適用。
隨機效應模型（random-effects model）：假設各研究的真實效果本來就略有不同，來自一個效果的分布。異質性高時較合理，但代價是信賴區間會變寬（更誠實地反映不確定性）。

正確的做法不是看到高 I² 就硬套隨機效應了事，而是回頭做次群組分析（subgroup analysis） 或統合迴歸（meta-regression），去找出「是什麼因素讓研究結果分歧」。異質性不是統計的麻煩，而是臨床的線索——它常常在提醒你：療效在不同病人身上，本來就不一樣。

多重比較與提前喊停：被忽略的偽陽性溫床

進階評讀必須對「機運被反覆抽籤的機會」保持警覺。

多重性問題（multiplicity）。 如果一份試驗檢驗 20 個結果，即使所有治療其實都無效，在 α = 0.05 的門檻下，純靠機運也預期會有約 1 個出現「p < 0.05 的顯著結果」。這就是為什麼主要結果（primary endpoint）必須在試驗開始前就事先指定、且通常只有一個。事後才從一堆次要結果或次群組裡挑出顯著的那個來宣傳（俗稱 data dredging 或 p-hacking），是製造偽陽性的溫床。嚴謹的試驗會用 Bonferroni 校正或階層式檢定（hierarchical testing）來控制整體第一型錯誤率（family-wise error rate）。讀到「在某某次群組中達到顯著」時，要問：這是事先假設的，還是事後撈出來的？

期中分析與提前喊停（interim analysis & early stopping）。 大型試驗常設「資料安全監測委員會（DSMB）」做期中分析，若療效已極度明顯或出現嚴重安全疑慮，可提前終止。這在倫理上必要，但「因有效而提前喊停（stopped early for benefit）」的試驗有個系統性傾向：高估療效。因為提前喊停往往發生在效果曲線「運氣好、剛好衝高」的那個時間點，後續可能回落卻沒機會被觀察到。因此會用 O'Brien-Fleming 等「消耗函數（alpha spending）」方法，讓期中分析需要更嚴苛的門檻才能喊停。看到一份「因效果太好而提前結束」的試驗，數字要打點折扣看。

從證據合成到臨床指引：GRADE 的角色

入門篇提過 GRADE（Grading of Recommendations Assessment, Development and Evaluation）會把證據品質分成高、中、低、極低四級。進階視角要理解它的運作邏輯：GRADE 不是看研究設計貼標籤，而是動態加減分。

RCT 的證據起點是「高品質」，但會因以下因素降級：偏誤風險（risk of bias）、結果不一致（inconsistency，即前面講的高異質性）、間接性（indirectness，試驗族群或介入與你的問題對不上）、不精確（imprecision，信賴區間太寬）、發表偏誤（publication bias）。反過來，觀察性研究起點是「低品質」，但若呈現極大的效果量、有劑量反應關係、或所有可能的干擾都只會讓效果被低估，則可以升級。

這套邏輯的精神，是把「證據的可信度」和「推薦的強度」分開處理。可能出現「高品質證據但只給弱推薦」（因為效益與風險很接近、病人偏好分歧大），也可能「低品質證據卻給強推薦」（如極危急又沒有替代方案時）。臨床指引（clinical guideline）裡那個「我們強烈建議／我們有條件地建議」的措辭，背後就是這整套 GRADE 推理——而不只是「有沒有 RCT」這麼簡單。

重點回顧

試驗設計的「假設方向」決定結論能說什麼：優越性試驗不顯著只代表「證據不足」，不等於「兩者相等」；要主張相當必須用不劣性／等效性設計並事先定好界限 Δ。
ITT 保護隨機化、貼近真實臨床、傾向保守，是優越性試驗的標準；但在不劣性試驗中 ITT 反而容易製造「不劣」假象，故需 ITT 與 PP 雙分析一致。
複合終點要拆開看各成分貢獻，當心「軟終點撐場、硬終點不動」；Hazard Ratio 依賴比例風險假設，務必回看 Kaplan-Meier 曲線形狀。
統合分析要先看 I² 異質性：高異質時硬平均沒有意義，異質性是尋找「療效為何因人而異」的臨床線索，而非單純的統計障礙。
多重比較與提前喊停都是偽陽性與高估療效的溫床；主要結果須事先單一指定，「因有效提前終止」的試驗數字要打折看。

深入探討（研究所視角）

走到研究所層級，EBM 的方法學會從「評讀既有證據」推進到「設計與合成證據、並質疑整個證據生態」。

網絡統合分析（network meta-analysis, NMA）。 當臨床上有 A、B、C、D 四種療法，卻只有「A vs B」「B vs C」等零散的頭對頭試驗，缺少全部兩兩直接比較時，NMA 透過共同對照（例如都和安慰劑比過）建立間接比較（indirect comparison），把所有療法放進同一個證據網絡排序。它的效力強大（能回答「哪個最好」），但成立前提是「遞移性假設（transitivity）」——被間接連起來的試驗，在病人族群與設計上要夠相似，否則整個排序會建立在不可比的基礎上。NMA 結果常以「排序機率（SUCRA）」呈現，但要警惕「排第一卻信賴區間極寬」的不穩定排名。

真實世界證據與因果推論的張力。 RCT 內部效度（internal validity）高，但外部效度（external validity）常受限——嚴格的納入排除條件讓試驗族群與門診實際病人差距甚大。真實世界資料（real-world data, RWD，如健保資料庫、電子病歷）涵蓋面廣，卻充滿干擾與選擇偏誤。前述的 target trial emulation 框架，正是試圖用觀察資料「模擬」一個理想 RCT 的設計（明確定義納入時點、治療策略、追蹤起點），以避免 immortal time bias 等經典陷阱。這條路徑與向有向無環圖（DAG）為基礎的因果推論結合，是當代流行病學最活躍的前沿。

最小臨床重要差異與以病人為中心的結果。 統計顯著與臨床重要的鴻溝，在研究所層級具體化為「最小臨床重要差異（minimal clinically important difference, MCID）」的量測學問題：一個量表分數要變動多少，病人才「感覺得到」？這推動了病人報告結果（patient-reported outcomes, PRO）的標準化、以及核心結果集（core outcome set, COS）運動——讓同一疾病領域的所有試驗測量一致、可比、且真正反映病人在乎的事，而非各自挑選最容易達標的替代指標。

證據的可重複性危機與制度回應。 即使方法正確，整個科學體系仍受「可重複性危機（reproducibility crisis）」衝擊：陽性結果偏好、選擇性報告、難以複製的研究結論。制度性對策包括試驗預先登錄（pre-registration）、結果開放共享、登錄式報告（registered reports，方法先審後做）、以及對統計推論本身的反省——從機械化套用 p < 0.05，轉向報告效果量、信賴區間、乃至貝氏後驗機率與證據強度的連續描述。

跨領域的方法遷移。 這套「設計嚴謹、誠實面對不確定、區分顯著與重要」的方法論，正外溢到實證教育（evidence-based education）與學習分析——本平台的 Educational Omics 框架，本質上就是把 EBM 對「多模態資料、效果量、異質性、因果推論」的講究，搬到學習科學的場域。對醫學生與研究者而言，掌握進階 EBM 的真正回報，不是記住一堆統計名詞，而是養成一種習慣：面對任何「研究顯示」的主張，先追問它是怎麼被設計、被分析、被合成出來的，再決定要不要相信。

本文為醫學教育與科學素養之知識讀本，旨在說明實證醫學的進階方法學概念，不構成個人化的醫療建議。任何診斷與治療決策，請與您的主治醫師或合格醫療專業人員討論。

← 上一篇

當「我覺得有效」遇上「資料怎麼說」

--

3

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

當一份試驗說「沒有比較差」，它到底在說什麼？