當「我覺得有效」遇上「資料怎麼說」

實證醫學如何整合最佳證據、臨床專業與病人價值，並用絕對風險、NNT 與信賴區間把臨床印象放回資料的脈絡中檢驗。

大學基礎 · 約 14 分鐘 ·#實證醫學#隨機對照試驗#臨床決策#統計素養#證據金字塔#醫學與社會

當「我覺得有效」遇上「資料怎麼說」

一位資深醫師在診間說：「我行醫三十年，這個藥我用過上千次，效果很好。」一位年輕住院醫師翻著最新的隨機對照試驗（Randomized Controlled Trial, RCT）說：「可是這份統合分析（meta-analysis）顯示，它和安慰劑沒有顯著差別。」

兩個人都很真誠，也都不是壞醫師。問題在於：當經驗與證據衝突時，臨床決策該聽誰的？

這正是實證醫學（Evidence-Based Medicine, EBM）試圖回答的核心問題。它不是要否定臨床經驗，而是提供一套有系統的方法，把「個人印象」放到「群體資料」的脈絡中檢驗，讓每一個影響病人的決定，都盡可能站在最可靠的證據之上。

實證醫學概念示意圖

實證醫學的三隻腳：證據、專業、病人

EBM 最常被誤解為「凡事只看論文、只信數字」。事實上，1996 年 David Sackett 等人在《British Medical Journal》提出的經典定義就強調，實證醫學是「審慎、明確、明智地運用當前最佳證據，來決定個別病人的照護」。

這個定義有三個支柱，缺一不可：

最佳研究證據（best research evidence）：來自臨床研究的可靠資料，特別是針對診斷準確度、預後與治療效益的研究。
臨床專業（clinical expertise）：醫師整合病史、理學檢查與證據的判斷能力。證據告訴你「平均而言會怎樣」，但坐在你面前的是一個具體的人。
病人的價值與偏好（patient values and preferences）：同樣一個「延長三個月存活、但副作用沉重」的治療，不同病人會做出不同選擇，而那個選擇是合理且應被尊重的。

換句話說，證據是「投入」，不是「裁決」。一份再漂亮的試驗結果，若忽略了病人的處境與意願，就不是好的實證醫學，只是把統計當教條。

為什麼經驗會騙人：偏誤與機運

如果經驗如此可靠，為什麼還需要 RCT？因為人類的認知系統，天生不擅長從觀察中推論因果。

自然病程（natural history）：許多疾病本來就會自己好轉。感冒第五天吃了某偏方、第七天痊癒，很容易誤以為是偏方有效，其實不吃也會好。
均值回歸（regression to the mean）：病人通常在症狀最嚴重時就醫。即使不治療，下一次測量也傾向回到較接近平均的數值，造成「治療有效」的假象。
安慰劑效應（placebo effect）：光是「接受治療」這件事本身，就能改變主觀症狀甚至部分生理指標。
確認偏誤（confirmation bias）：我們會記住「有效」的案例，淡忘「無效」的案例。

RCT 之所以強大，正是因為它用隨機分組讓兩組病人在已知與未知的干擾因素上趨於平衡，再用對照組吸收掉自然病程、均值回歸與安慰劑效應。最後兩組的差異，才比較有把握歸因於治療本身。盲化（blinding）則進一步阻斷病人與評估者的主觀期待污染結果。

證據金字塔：不是所有研究都等值

實證醫學常用「證據金字塔」來表達研究設計的可信度高低。由下而上大致為：

專家意見、個案報告（case report）：最底層。提供假設與警訊，但無法證明因果。
個案對照研究（case-control study）與世代研究（cohort study）：觀察性研究，能看出關聯，但容易受干擾因子（confounding）影響。
隨機對照試驗（RCT）：能較好地建立因果關係。
系統性文獻回顧與統合分析（systematic review & meta-analysis）：在頂端，整合多份研究、提高統計檢定力，並系統性評估偏誤。

但金字塔有一個重要的提醒：層級高不等於品質一定好。一份設計粗糙、樣本失衡、退出率極高的 RCT，可能不如一份方法嚴謹的大型世代研究。近年 GRADE（Grading of Recommendations Assessment, Development and Evaluation）系統更進一步，不只看研究設計，還綜合考量研究的偏誤風險、結果一致性、間接性、精確度與發表偏誤，把證據品質分為「高、中、低、極低」四級。這提醒我們：讀證據要看的是「方法」，不只是「標籤」。

看一個例子：解讀一份治療試驗

假設你讀到一份新藥試驗，預防某高風險族群三年內中風。結果如下：

對照組（安慰劑）：100 人中有 10 人中風，事件率 10%。
治療組（新藥）：100 人中有 5 人中風，事件率 5%。

我們可以算出幾個關鍵指標：

相對風險下降（Relative Risk Reduction, RRR）：(10% − 5%) ÷ 10% = 50%。聽起來非常驚人。
絕對風險下降（Absolute Risk Reduction, ARR）：10% − 5% = 5 個百分點。
需治療人數（Number Needed to Treat, NNT）：1 ÷ ARR = 1 ÷ 0.05 = 20。意思是：平均要治療 20 個人三年，才能多避免 1 次中風。

注意「降低 50% 風險」與「需治療 20 人才避免 1 次事件」描述的是同一份資料。藥廠廣告偏好前者（相對風險），因為數字漂亮；臨床決策則更需要後者（絕對風險與 NNT），因為它告訴你真實的效益規模。

如果同一個藥用在「十年內中風基礎風險只有 1%」的低風險族群，即使相對風險一樣降 50%，ARR 只剩 0.5 個百分點，NNT 高達 200——再加上藥物副作用與成本，效益就可能不划算。同一個藥，效益高低取決於病人的基礎風險（baseline risk），這是實證醫學最實用的洞見之一。

別忘了還要看信賴區間（confidence interval, CI）。若這份試驗的相對風險 95% CI 是 0.30 到 0.85，代表真實效果有把握落在「降低 15% 到 70%」之間，且區間不跨過 1，結果具統計顯著性。但若 CI 是 0.40 到 1.20（跨過 1），就無法排除「其實沒效甚至有害」的可能。p 值只告訴你「是否顯著」，CI 同時告訴你「效果可能多大、估計多精確」，資訊量更豐富。

從證據到床邊：EBM 的五個步驟

實證醫學在實務上是一套可操作的流程，常被歸納為「5A」：

Ask（提問）：把臨床疑問結構化為 PICO——病人/問題（Patient）、介入（Intervention）、對照（Comparison）、結果（Outcome）。例如：「對心房顫動的高齡病人（P），使用新型口服抗凝血劑（I）相較於傳統 warfarin（C），能否降低中風且不增加大出血（O）？」
Acquire（搜尋）：到 PubMed、Cochrane Library、臨床指引等來源找最相關的證據。
Appraise（評讀）：批判性評估研究的效度（validity）、效果大小（如 NNT、CI）與適用性。
Apply（應用）：把證據放回這位病人的脈絡，結合臨床判斷與病人偏好做決定。
Assess（檢討）：回顧整個流程與結果，持續改進。

PICO 的價值在於，它把模糊的「這樣做好不好」轉化成可被證據回答的明確問題，也讓搜尋更精準。

統計顯著不等於臨床重要

這是學習者最該內化的一課。一份納入十萬人的超大型試驗，可能讓「降血壓 0.5 mmHg」這種微不足道的差異也達到 p < 0.05。統計顯著（statistical significance）只說明「這個差異不太可能純粹來自機運」，卻沒回答「這個差異對病人的生活有沒有意義」。

因此評讀證據時要追問三件事：

測量的是病人真正在乎的結果（如死亡、中風、生活品質），還是只是替代指標（surrogate endpoint）（如血壓、檢驗數值）？替代指標改善，未必轉化為真實預後改善——歷史上不乏「指標漂亮、結局更糟」的教訓。
效果大小放在臨床脈絡裡，夠不夠大到值得改變做法？
試驗族群和你的病人像不像？在年輕健康者身上做的試驗，未必能直接套用到多重共病的高齡病人。

重點回顧

實證醫學是「最佳證據 × 臨床專業 × 病人價值」三者的整合，不是用論文取代醫師判斷，也不是用經驗無視資料。
經驗容易被自然病程、均值回歸、安慰劑效應與確認偏誤誤導；RCT 透過隨機化、對照與盲化來控制這些干擾。
證據金字塔反映研究設計的可信度，但「方法品質」比「設計層級的標籤」更關鍵；GRADE 提供更細緻的分級框架。
解讀療效要看絕對風險下降（ARR）與需治療人數（NNT），而非只看亮眼的相對風險下降（RRR）；效益高低取決於病人的基礎風險。
統計顯著不等於臨床重要；要區分病人導向結果與替代指標，並注意信賴區間與試驗族群的適用性。

深入探討（研究所視角）

進入研究所層級，實證醫學的討論會從「如何讀一篇論文」延伸到「整個證據生態系統的可信度」。

偏誤的系統性來源。 Cochrane 的 RoB 2（Risk of Bias 2）工具把試驗偏誤拆解為隨機化過程、偏離預定介入、結果資料缺失、結果測量與選擇性報告五個面向。其中「選擇性報告（selective outcome reporting）」與「發表偏誤（publication bias）」格外棘手：陽性結果較容易被投稿、被接受、被引用，使得已發表文獻系統性高估療效。試驗註冊制度（如 ClinicalTrials.gov 要求事前登錄主要結果）與漏斗圖（funnel plot）不對稱檢定，正是為了對抗這類偏誤的制度性與統計性工具。

因果推論的方法學。 當 RCT 因倫理或可行性無法執行時，現代流行病學發展出一系列從觀察資料逼近因果的方法：傾向分數配對（propensity score matching）、工具變數（instrumental variable）、雙重差分（difference-in-differences），以及以有向無環圖（Directed Acyclic Graph, DAG）來釐清干擾因子與對撞因子（collider），避免「校正了不該校正的變項」反而引入偏誤。target trial emulation 則嘗試用大型真實世界資料（real-world data）模擬一個理想的隨機試驗設計，是近年的重要進展。

從頻率學派到貝氏。 傳統 EBM 建立在頻率學派的 p 值與信賴區間之上，但 p 值長期被誤用與誤解，促成了 2016 年美國統計學會（ASA）的正式聲明。貝氏統計（Bayesian statistics）提供另一條路：把先驗信念（prior）與資料結合成後驗機率，直接回答臨床醫師真正想問的「在這份證據下，這個治療有效的機率是多少」。貝氏適應性設計（adaptive design）在罕見疾病與精準醫療試驗中愈來愈常見。

EBM 的當代批判與演進。 有學者提出「EBM 危機」的反思：證據量爆炸但臨床醫師無暇消化、產業資助可能扭曲研究議程、過度依賴族群平均而忽略個體異質性。回應之道包括強調共享決策（shared decision making）、發展「異質性治療效應（heterogeneity of treatment effects）」分析以走向個人化、以及方法學上的證據合成（如網絡統合分析 network meta-analysis，可同時比較多種未曾頭對頭比較的治療）。

跨領域連結。 實證醫學的精神早已外溢到其他領域：實證教育（evidence-based education，本平台所屬的學習分析正是其延伸）、實證政策（evidence-based policy）都借用了 RCT、效果量與系統性回顧的框架。對醫學生與研究者而言，掌握 EBM 不只是學會評讀論文，更是培養一種貫穿臨床、研究與公共決策的批判思維：在不確定中，誠實面對證據的限度，並把決定權留給知情的病人。

本文為醫學教育與科學素養之知識讀本，旨在說明實證醫學的概念與方法，不構成個人化的醫療建議。任何診斷與治療決策，請與您的主治醫師或合格醫療專業人員討論。

當一份試驗說「沒有比較差」，它到底在說什麼？

--

4

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

當「我覺得有效」遇上「資料怎麼說」