結果章進階：當數據不聽話時，誠實才是最強的修辭

不顯著、反預期、多重比較——進階研究者如何在完整、誠實與敘事清晰之間取得平衡

進階 · 約 15 分鐘 ·#學術寫作#結果章#統計報告#信賴區間#可重複性#資料視覺化

當你的數據「不聽話」：結果章真正的考驗，是你沒預期的那些發現

入門篇教你守住「報告 What、不解釋 Why」的界線，也教你怎麼替圖表導讀、怎麼附上效果量。那些是地基。但真正讓資深審稿人皺眉或點頭的，往往不是你「乾淨的主結果」寫得多漂亮，而是你怎麼處理那些不聽話的數據——不顯著的對比、出乎意料的反向效果、明明跑了二十個檢定卻只報告其中三個的尷尬。

設想一個真實場景：你的主假設成立了（實驗組顯著優於控制組），但一個你「順便」加進去的交互作用項（interaction）卻指向相反方向，而且它也達到 p < .05。你會怎麼寫？把它藏進附錄？輕描淡寫帶過？還是誠實報告但不知道該擺在哪？這篇進階文章談的，正是入門篇沒空細講的那一層：當結果不再是教科書範例那麼乾淨時，一個成熟的研究者如何在「完整、誠實、可重複」與「敘事清晰」之間取得平衡。

結果章進階概念示意圖

完整報告 vs. 選擇性報告：分叉花園的倫理

入門篇提醒你要報告效果量。進階的問題更尖銳：你到底該報告哪些分析？ 這就是統計學家 Andrew Gelman 所說的「分叉花園（the garden of forking paths）」——在資料分析過程中，你做過無數個小決定（要不要剔除離群值、用哪個共變項、分幾組），每一條岔路都可能通往不同的 p 值。如果你只報告「最漂亮的那條路」，就構成了選擇性報告（selective reporting），會嚴重高估發現的可信度。

寫作上的具體表現是：不要讓你的結果章看起來像「我預期的全都成立了」。

❌ 不佳：The analysis confirmed our hypothesis: the intervention significantly improved test scores (p = .03). （分析證實了我們的假設：介入措施顯著提升了測驗分數（p = .03）。）

問題不在這句話本身，而在它隱瞞了背景。如果你其實跑了五個結果變項，只有這一個達標，卻寫得像「我們預測它會成立、它就成立了」，這就是誤導。

✅ 改良：Of the five outcome measures, only test scores showed a significant improvement (p = .03, uncorrected); the remaining four did not reach significance (all p > .15). Given the multiple comparisons, this single effect should be interpreted with caution. （在五個結果變項中，僅測驗分數呈現顯著提升（p = .03，未校正）；其餘四項皆未達顯著（所有 p > .15）。考量到多重比較，此單一效果應審慎詮釋。）

改良版做了三件成熟的事：(1) 明說「五個裡只有一個達標」，給出分母；(2) 標註 "uncorrected（未校正）"，誠實揭露這個 p 值沒有經過多重比較校正；(3) 主動提示讀者要審慎。這不會讓你的論文看起來比較弱——恰恰相反，它讓有經驗的審稿人覺得你值得信任。

一個關鍵的寫作詞彙是區分驗證性（confirmatory）與探索性（exploratory）分析。如果一個分析是事後才想到、看了資料才做的，誠實的寫法是：

✅ In an exploratory follow-up analysis (not pre-registered), we observed that the effect was larger among first-year students. （在一項探索性的後續分析中（未經預先註冊），我們觀察到此效果在一年級學生中較大。）

"exploratory" 和 "not pre-registered" 這兩個標記，等於誠實地告訴讀者：「這是假設生成（hypothesis-generating），不是假設驗證，請別當成定論。」

怎麼報告「不顯著」與「反預期」的結果

學生最怕寫不顯著的結果，常見的逃避是乾脆不寫。但「沒有效果」本身就是一種發現，而且錯誤地詮釋不顯著是初稿最常見的硬傷之一。

最大的陷阱是把「未達顯著」說成「證明沒有差異」。

❌ 不佳：The two groups showed no difference in anxiety levels (p = .27), proving that the treatment has no effect on anxiety. （兩組在焦慮程度上沒有差異（p = .27），證明該療法對焦慮無效。）

這句話犯了統計學的經典錯誤：不能拒絕虛無假設（fail to reject H₀），不等於接受虛無假設。 p = .27 可能代表「真的沒差」，也可能代表「你的樣本太小、檢定力（power）不足，看不出本來存在的差異」。兩者天差地別。

✅ 改良：The difference in anxiety levels between groups was not statistically significant, t(44) = 1.11, p = .27, d = 0.33, 95% CI [−0.26, 0.92]. The wide confidence interval, spanning from a small negative to a moderate positive effect, indicates that the present sample was underpowered to detect an effect of this magnitude. （兩組焦慮程度的差異未達統計顯著，t(44) = 1.11, p = .27, d = 0.33, 95% CI [−0.26, 0.92]。此信賴區間相當寬，橫跨從小幅負向到中度正向的效果，顯示本研究樣本的檢定力不足以偵測此量級的效果。）

改良版透過 95% 信賴區間誠實展示了「不確定性的範圍」：CI 從 −0.26 到 0.92，意思是「我們無法排除這個療法其實有中度效果的可能」。這比一句「proving no effect」精確太多。如果你真的想主張「沒有實質差異」，正確的工具是等價檢定（equivalence testing，如 TOST 程序），而不是拿一個不顯著的 p 值當證據。

至於反預期的結果，原則是：照實報告，不在結果章替它找藉口。

❌ 不佳：Contrary to expectation, the control group improved more, possibly because our intervention was too cognitively demanding for them. （與預期相反，控制組進步較多，可能是因為我們的介入對他們而言認知負荷太高。）

那句 "possibly because..." 又是 Discussion 的工作。結果章只需冷靜陳述事實：

✅ 改良：Contrary to the hypothesis, the control group (M = 12.4) improved more than the intervention group (M = 9.1), a difference that was statistically significant, t(60) = 2.88, p = .005, d = 0.73. （與假設相反，控制組（M = 12.4）的進步幅度大於介入組（M = 9.1），此差異具統計顯著，t(60) = 2.88, p = .005, d = 0.73。）

"Contrary to the hypothesis" 是一個誠實且專業的開場，它直接承認預測落空，然後讓數字說話。審稿人會欣賞這種不粉飾的態度。

信賴區間：把「點」變成「範圍」的思維升級

入門篇提到效果量；進階一層，是把信賴區間（confidence interval, CI）當成結果章的預設配備，而非可有可無的點綴。原因在於：點估計（point estimate，如 d = 0.63）給你「一個數字」，CI 給你「這個數字有多可靠」。

但 CI 的語言很容易寫錯。一個常見迷思是把 95% CI 解釋成「真值有 95% 機率落在這個區間內」——這是錯的。正確的頻率學派詮釋是：「如果重複抽樣無數次、每次都算一個 95% CI，那麼其中約 95% 的區間會涵蓋真值。」寫作時，與其糾結哲學詮釋，不如直接報告區間並描述它的寬窄與位置：

✅ The intervention increased reading speed by 14.2 words per minute, 95% CI [9.8, 18.6]. Because the entire interval lies well above zero, the effect is unlikely to be a chance finding, and its magnitude is estimated with reasonable precision. （介入措施使閱讀速度提升 14.2 字／分鐘，95% CI [9.8, 18.6]。由於整個區間都明顯大於零，此效果不太可能是機運造成，且其量級的估計具相當精確度。）

注意這裡如何用 "the entire interval lies above zero（整個區間都大於零）" 來傳達「達顯著」的訊息，同時用 "estimated with reasonable precision（估計相當精確）" 傳達「區間不算太寬」。這比單獨報告 p < .05 富含更多資訊。

當 CI 很寬時，誠實地說出來：

✅ Although the point estimate suggested a benefit (OR = 1.8), the confidence interval was wide, 95% CI [0.9, 3.6], reflecting substantial uncertainty given the small number of events. （雖然點估計顯示有益（OR = 1.8），但信賴區間相當寬，95% CI [0.9, 3.6]，反映出在事件數偏少的情況下存在相當大的不確定性。）

從「報告數字」到「報告模型」：複雜分析的書寫

入門篇的範例多是 t 檢定、ANOVA。研究所階段你會用到迴歸（regression）、多層次模型（multilevel models）、結構方程（SEM）等，這些分析的結果章寫法有額外規範。核心原則是：正文敘述「故事」，表格承載「全部係數」。

不要把整張迴歸表用句子念一遍——那是流水帳的升級版。

❌ 不佳：The coefficient for age was 0.32, the coefficient for gender was −0.11, the coefficient for prior GPA was 0.58, the coefficient for study hours was 0.27... （年齡的係數是 0.32，性別的係數是 −0.11，先前 GPA 的係數是 0.58，讀書時數的係數是 0.27……）

✅ 改良：The full regression model is reported in Table 4. Prior GPA was the strongest predictor of final performance (β = 0.58, p < .001), followed by weekly study hours (β = 0.27, p = .004). After controlling for these factors, age and gender were not significant predictors (both p > .20). The model explained 41% of the variance in outcomes (adjusted R² = .41). （完整迴歸模型報告於表 4。先前 GPA 是期末表現最強的預測變項（β = 0.58, p < .001），其次為每週讀書時數（β = 0.27, p = .004）。在控制這些因素後，年齡與性別並非顯著預測變項（皆 p > .20）。此模型解釋了 41% 的結果變異（調整後 R² = .41）。）

改良版只把值得講的事寫進正文：誰是最強預測變項、控制後哪些變項失去效果、整體模型解釋力多少。其餘係數交給表格。這裡也示範了報告模型時不該漏的元素：模型整體的適配度（R²、AIC、或 model fit indices），而不只是個別係數。

對於多層次或機器學習模型，社群慣例還會要求報告：隨機效果的變異成分（variance components）、模型比較（likelihood ratio test）、或多次隨機種子下的標準差。寫作時要意識到——讀者需要足夠的資訊來判斷你的模型是否穩健（robust），而不只是「跑出來好看」。

看一個例子：把一段「報喜不報憂」的結果改成可信版本

下面是一段常見的初稿，技術上沒有錯字，但散發著「我只挑好的講」的氣味：

❌ 不佳：Our model achieved 94% accuracy, dramatically outperforming all baselines and demonstrating the clear superiority of our approach. （我們的模型達到 94% 準確率，大幅超越所有基準模型，展現出我們方法的明顯優越性。）

問題在於：(1) "94% accuracy" 沒有變異資訊（是單次跑的嗎？多次平均？標準差多少？）；(2) "dramatically / clear superiority" 是主觀宣稱；(3) 沒提任何代價或限制——讀者會懷疑你是不是藏了什麼。改良時加入變異、對比的精確幅度、以及一個誠實的取捨：

✅ 改良：Averaged over five random seeds, our model reached 94.1% accuracy (SD = 0.6), compared with 89.3% for the strongest baseline—a 4.8-percentage-point gain (95% CI [3.9, 5.7]). This improvement came at the cost of a 2.3× increase in training time, a trade-off we examine in the Discussion. （在五個隨機種子下平均，我們的模型達到 94.1% 準確率（SD = 0.6），相較於最強基準的 89.3%——提升 4.8 個百分點（95% CI [3.9, 5.7]）。此改進的代價是訓練時間增加 2.3 倍，我們將在討論章探討此一取捨。）

改良版立刻顯得可信：有多次平均與標準差、有精確的對比幅度與 CI、甚至主動揭露了一個缺點（訓練時間變長）。一個願意說出自己方法代價的作者，遠比一個只會喊 "clear superiority" 的作者更有說服力。

圖表的「修辭」：誠實視覺化也是寫作的一部分

結果章的「文字」不只是正文，圖表本身就在「說話」——而它可能說真話，也可能說謊。進階作者必須意識到：圖表的設計選擇是一種修辭（rhetoric），有對應的倫理。

幾個常見的誠實性陷阱：

1. 截斷的 Y 軸（truncated axis）。 把長條圖的 Y 軸從 80 開始（而非 0），會讓 82 和 85 的差距看起來像天壤之別。在比較絕對量值的長條圖中，這是經典的誤導手法。寫圖說（caption）或選軸時要自問：這個視覺對比，忠實反映了實際的效果量嗎？

2. 隱藏個別資料點。 只畫平均數的長條圖（bar chart）會藏住分布——兩組「平均相同」可能一組集中、一組兩極分化。現代慣例越來越鼓勵用點圖、箱形圖或小提琴圖（dot/box/violin plots）疊加原始資料點，讓讀者看見離散程度與離群值。

3. 誤差線（error bars）沒說清楚代表什麼。 同樣一根誤差線，可能是標準差（SD）、標準誤（SE）、或 95% CI，三者長度差很多、意義也不同。圖說裡不寫清楚誤差線代表什麼，等於沒給。

❌ 不佳的圖說：Figure 3. Mean scores for each group. Error bars show variability. （圖 3。各組平均分數。誤差線表示變異。）

✅ 改良的圖說：Figure 3. Mean test scores by condition (N = 120). Error bars represent 95% confidence intervals; individual data points are overlaid to show the underlying distribution. （圖 3。各條件下的平均測驗分數（N = 120）。誤差線代表 95% 信賴區間；疊加的個別資料點呈現底層分布。）

改良的圖說精確說明了誤差線的意義（95% CI）、樣本數、以及視覺化策略。一個好的圖說應該能讓圖獨立於正文被讀懂（self-contained）——這是頂尖期刊的隱性標準。

動手試試：替這段視覺化決策「除錯」

某學生這樣描述他的圖：「我把成功率做成長條圖，為了讓差異更明顯，Y 軸從 70% 開始，而且只畫了平均，沒放誤差線，因為這樣看起來比較乾淨。」

請找出三個倫理／溝通問題：

Y 軸從 70% 開始 → 人為放大視覺差異，可能讓 2% 的差距看起來像巨大鴻溝。比較絕對量時，長條圖應從 0 起。若差異真的很小，那就是一個誠實的發現，不該用視覺手法掩蓋。
只畫平均、沒有誤差線或資料點 → 讀者無從判斷差異的不確定性與組內離散。沒有變異資訊的長條圖，是「看起來精確、實則資訊不足」的典型。
「比較乾淨」當理由 → 把「美觀」凌駕於「資訊完整」之上，是視覺修辭的滑坡。乾淨應該來自設計品質，不是來自隱藏資訊。

改良方向： 改用點圖或箱形圖疊加原始資料點，Y 軸從 0 起（或在無法從 0 起時明確標註並說明理由），加上代表 95% CI 的誤差線，並在圖說寫清楚。

重點回顧

誠實揭露分母與校正狀態。 跑了幾個檢定、報告了幾個，要讓讀者知道；標明 uncorrected / pre-registered / exploratory，避免選擇性報告誇大可信度。
不顯著 ≠ 沒有效果。 「無法拒絕 H₀」只代表證據不足，不代表沒差異；用信賴區間展示不確定性，必要時用等價檢定主張「實質無差異」。
反預期的結果照實報告，把「為什麼」留給 Discussion。 "Contrary to the hypothesis..." 是專業而誠實的開場。
把信賴區間當預設配備。 CI 同時傳達效果大小與估計精確度，資訊量勝過孤立的 p 值；別把 95% CI 誤解成「真值有 95% 機率落在內」。
複雜模型：正文講故事、表格載全部，並報告整體適配度與穩健性。 圖表是會說話的修辭——軸的起點、誤差線的定義、是否顯示原始資料點，都是誠實性的一部分。

深入探討（研究所視角）

當你開始寫多研究（multi-study）論文、或投稿頂尖 venue 時，結果章的書寫會升級為一門關於證據累積與不確定性溝通的功夫。

1. 多研究論文的結果架構。 一篇含三個實驗的論文，每個 Study 都有自己的迷你結果段，但整體需要一條貫穿的論證弧（narrative arc）：Study 1 建立基本效果，Study 2 排除替代解釋（alternative explanation），Study 3 檢驗邊界條件（boundary condition）或機制。成熟的寫法會在每個 Study 結果末尾加一句「橋接句（bridging sentence）」，預告下一個研究要解決什麼殘留問題。這時「結果的呈現順序」不只是組織問題，而是證據如何層層說服讀者的修辭設計。可考慮在末尾用內部統合分析（internal meta-analysis）把跨研究的效果量整合，呈現更穩健的整體估計。

2. 多重比較與錯誤發現率（false discovery rate, FDR）。 當你跑數十、數百個檢定（如腦影像的逐體素分析、基因表現研究、大規模 A/B 測試），族系錯誤率（family-wise error rate）會爆炸。Bonferroni 校正過於保守，現代做法傾向控制 FDR（如 Benjamini–Hochberg 程序）。結果章要明確交代你用了哪種校正、在什麼門檻下宣稱發現。寫清楚校正方法，本身就是抵禦「這只是運氣」這種審稿質疑的盾牌。

3. 不確定性的多層次溝通。 進階研究者會意識到：報告裡的不確定性不只一種。除了抽樣不確定性（sampling uncertainty，由 SE/CI 捕捉），還有模型不確定性（model uncertainty：換個模型設定結果會不會變）與測量不確定性（measurement uncertainty）。敏感度分析（sensitivity analysis）與穩健性檢查（robustness checks）——「換掉這個假設、剔除這批資料、用另一種估計法，結論還站得住嗎？」——正逐漸成為高品質結果章的標配。能主動展示「我的結論不依賴某個任意決定」的作者，最能贏得審稿人信任。

4. 貝氏取向的另類書寫。 頻率學派的 p 值與 CI 之外，貝氏（Bayesian）分析提供了另一套結果語言：後驗分布（posterior distribution）、可信區間（credible interval，可以直接說「真值有 95% 機率落在此區間」——這正是大家誤以為 CI 能說的）、以及貝氏因子（Bayes factor，可量化「支持 H₁ 相對於 H₀ 的證據強度」，甚至能直接表達「支持虛無假設」這件頻率學派做不到的事）。若你的領域開始接受貝氏方法，學會用後驗機率陳述結果，會讓你的不確定性溝通更直觀。

5. 可重複性基礎設施與結果章的未來。 開放科學（open science）正在重塑結果章：許多期刊已要求附上可執行的分析腳本，讓圖表能從原始資料一鍵重現（reproducible figures）；計算筆記本（如 R Markdown、Jupyter、Quarto）讓「文字 + 程式碼 + 輸出」綁在一起，杜絕手動複製貼上的轉錄錯誤。對 Uedu 這類整合多模態學習資料的研究而言更是關鍵——當你的結果來自生理訊號、對話軌跡、學習歷程的交叉分析，每一步前處理與分析決策都應可被追溯。換言之，未來的結果章不再是一段靜態文字，而是一份可被獨立重新執行的證據鏈；學會把寫作與可重複性流程整合，會是這個世代研究者的核心素養。

← 上一篇

結果章寫作：讓數據替你發聲，卻不替你越界

--

3

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定