結果章進階:當數據不聽話時,誠實才是最強的修辭
不顯著、反預期、多重比較——進階研究者如何在完整、誠實與敘事清晰之間取得平衡
當你的數據「不聽話」:結果章真正的考驗,是你沒預期的那些發現
入門篇教你守住「報告 What、不解釋 Why」的界線,也教你怎麼替圖表導讀、怎麼附上效果量。那些是地基。但真正讓資深審稿人皺眉或點頭的,往往不是你「乾淨的主結果」寫得多漂亮,而是你怎麼處理那些不聽話的數據——不顯著的對比、出乎意料的反向效果、明明跑了二十個檢定卻只報告其中三個的尷尬。
設想一個真實場景:你的主假設成立了(實驗組顯著優於控制組),但一個你「順便」加進去的交互作用項(interaction)卻指向相反方向,而且它也達到 p < .05。你會怎麼寫?把它藏進附錄?輕描淡寫帶過?還是誠實報告但不知道該擺在哪?這篇進階文章談的,正是入門篇沒空細講的那一層:當結果不再是教科書範例那麼乾淨時,一個成熟的研究者如何在「完整、誠實、可重複」與「敘事清晰」之間取得平衡。

完整報告 vs. 選擇性報告:分叉花園的倫理
入門篇提醒你要報告效果量。進階的問題更尖銳:你到底該報告哪些分析? 這就是統計學家 Andrew Gelman 所說的「分叉花園(the garden of forking paths)」——在資料分析過程中,你做過無數個小決定(要不要剔除離群值、用哪個共變項、分幾組),每一條岔路都可能通往不同的 p 值。如果你只報告「最漂亮的那條路」,就構成了選擇性報告(selective reporting),會嚴重高估發現的可信度。
寫作上的具體表現是:不要讓你的結果章看起來像「我預期的全都成立了」。
❌ 不佳:The analysis confirmed our hypothesis: the intervention significantly improved test scores (p = .03). (分析證實了我們的假設:介入措施顯著提升了測驗分數(p = .03)。)
問題不在這句話本身,而在它隱瞞了背景。如果你其實跑了五個結果變項,只有這一個達標,卻寫得像「我們預測它會成立、它就成立了」,這就是誤導。
✅ 改良:Of the five outcome measures, only test scores showed a significant improvement (p = .03, uncorrected); the remaining four did not reach significance (all p > .15). Given the multiple comparisons, this single effect should be interpreted with caution. (在五個結果變項中,僅測驗分數呈現顯著提升(p = .03,未校正);其餘四項皆未達顯著(所有 p > .15)。考量到多重比較,此單一效果應審慎詮釋。)
改良版做了三件成熟的事:(1) 明說「五個裡只有一個達標」,給出分母;(2) 標註 "uncorrected(未校正)",誠實揭露這個 p 值沒有經過多重比較校正;(3) 主動提示讀者要審慎。這不會讓你的論文看起來比較弱——恰恰相反,它讓有經驗的審稿人覺得你值得信任。
一個關鍵的寫作詞彙是區分驗證性(confirmatory)與探索性(exploratory)分析。如果一個分析是事後才想到、看了資料才做的,誠實的寫法是:
✅ In an exploratory follow-up analysis (not pre-registered), we observed that the effect was larger among first-year students. (在一項探索性的後續分析中(未經預先註冊),我們觀察到此效果在一年級學生中較大。)
"exploratory" 和 "not pre-registered" 這兩個標記,等於誠實地告訴讀者:「這是假設生成(hypothesis-generating),不是假設驗證,請別當成定論。」
怎麼報告「不顯著」與「反預期」的結果
學生最怕寫不顯著的結果,常見的逃避是乾脆不寫。但「沒有效果」本身就是一種發現,而且錯誤地詮釋不顯著是初稿最常見的硬傷之一。
最大的陷阱是把「未達顯著」說成「證明沒有差異」。
❌ 不佳:The two groups showed no difference in anxiety levels (p = .27), proving that the treatment has no effect on anxiety. (兩組在焦慮程度上沒有差異(p = .27),證明該療法對焦慮無效。)
這句話犯了統計學的經典錯誤:不能拒絕虛無假設(fail to reject H₀),不等於接受虛無假設。 p = .27 可能代表「真的沒差」,也可能代表「你的樣本太小、檢定力(power)不足,看不出本來存在的差異」。兩者天差地別。
✅ 改良:The difference in anxiety levels between groups was not statistically significant, t(44) = 1.11, p = .27, d = 0.33, 95% CI [−0.26, 0.92]. The wide confidence interval, spanning from a small negative to a moderate positive effect, indicates that the present sample was underpowered to detect an effect of this magnitude. (兩組焦慮程度的差異未達統計顯著,t(44) = 1.11, p = .27, d = 0.33, 95% CI [−0.26, 0.92]。此信賴區間相當寬,橫跨從小幅負向到中度正向的效果,顯示本研究樣本的檢定力不足以偵測此量級的效果。)
改良版透過 95% 信賴區間誠實展示了「不確定性的範圍」:CI 從 −0.26 到 0.92,意思是「我們無法排除這個療法其實有中度效果的可能」。這比一句「proving no effect」精確太多。如果你真的想主張「沒有實質差異」,正確的工具是等價檢定(equivalence testing,如 TOST 程序),而不是拿一個不顯著的 p 值當證據。
至於反預期的結果,原則是:照實報告,不在結果章替它找藉口。
❌ 不佳:Contrary to expectation, the control group improved more, possibly because our intervention was too cognitively demanding for them. (與預期相反,控制組進步較多,可能是因為我們的介入對他們而言認知負荷太高。)
那句 "possibly because..." 又是 Discussion 的工作。結果章只需冷靜陳述事實:
✅ 改良:Contrary to the hypothesis, the control group (M = 12.4) improved more than the intervention group (M = 9.1), a difference that was statistically significant, t(60) = 2.88, p = .005, d = 0.73. (與假設相反,控制組(M = 12.4)的進步幅度大於介入組(M = 9.1),此差異具統計顯著,t(60) = 2.88, p = .005, d = 0.73。)
"Contrary to the hypothesis" 是一個誠實且專業的開場,它直接承認預測落空,然後讓數字說話。審稿人會欣賞這種不粉飾的態度。
信賴區間:把「點」變成「範圍」的思維升級
入門篇提到效果量;進階一層,是把信賴區間(confidence interval, CI)當成結果章的預設配備,而非可有可無的點綴。原因在於:點估計(point estimate,如 d = 0.63)給你「一個數字」,CI 給你「這個數字有多可靠」。
但 CI 的語言很容易寫錯。一個常見迷思是把 95% CI 解釋成「真值有 95% 機率落在這個區間內」——這是錯的。正確的頻率學派詮釋是:「如果重複抽樣無數次、每次都算一個 95% CI,那麼其中約 95% 的區間會涵蓋真值。」寫作時,與其糾結哲學詮釋,不如直接報告區間並描述它的寬窄與位置:
✅ The intervention increased reading speed by 14.2 words per minute, 95% CI [9.8, 18.6]. Because the entire interval lies well above zero, the effect is unlikely to be a chance finding, and its magnitude is estimated with reasonable precision. (介入措施使閱讀速度提升 14.2 字/分鐘,95% CI [9.8, 18.6]。由於整個區間都明顯大於零,此效果不太可能是機運造成,且其量級的估計具相當精確度。)
注意這裡如何用 "the entire interval lies above zero(整個區間都大於零)" 來傳達「達顯著」的訊息,同時用 "estimated with reasonable precision(估計相當精確)" 傳達「區間不算太寬」。這比單獨報告 p < .05 富含更多資訊。
當 CI 很寬時,誠實地說出來:
✅ Although the point estimate suggested a benefit (OR = 1.8), the confidence interval was wide, 95% CI [0.9, 3.6], reflecting substantial uncertainty given the small number of events. (雖然點估計顯示有益(OR = 1.8),但信賴區間相當寬,95% CI [0.9, 3.6],反映出在事件數偏少的情況下存在相當大的不確定性。)
從「報告數字」到「報告模型」:複雜分析的書寫
入門篇的範例多是 t 檢定、ANOVA。研究所階段你會用到迴歸(regression)、多層次模型(multilevel models)、結構方程(SEM)等,這些分析的結果章寫法有額外規範。核心原則是:正文敘述「故事」,表格承載「全部係數」。
不要把整張迴歸表用句子念一遍——那是流水帳的升級版。
❌ 不佳:The coefficient for age was 0.32, the coefficient for gender was −0.11, the coefficient for prior GPA was 0.58, the coefficient for study hours was 0.27... (年齡的係數是 0.32,性別的係數是 −0.11,先前 GPA 的係數是 0.58,讀書時數的係數是 0.27……)
✅ 改良:The full regression model is reported in Table 4. Prior GPA was the strongest predictor of final performance (β = 0.58, p < .001), followed by weekly study hours (β = 0.27, p = .004). After controlling for these factors, age and gender were not significant predictors (both p > .20). The model explained 41% of the variance in outcomes (adjusted R² = .41). (完整迴歸模型報告於表 4。先前 GPA 是期末表現最強的預測變項(β = 0.58, p < .001),其次為每週讀書時數(β = 0.27, p = .004)。在控制這些因素後,年齡與性別並非顯著預測變項(皆 p > .20)。此模型解釋了 41% 的結果變異(調整後 R² = .41)。)
改良版只把值得講的事寫進正文:誰是最強預測變項、控制後哪些變項失去效果、整體模型解釋力多少。其餘係數交給表格。這裡也示範了報告模型時不該漏的元素:模型整體的適配度(R²、AIC、或 model fit indices),而不只是個別係數。
對於多層次或機器學習模型,社群慣例還會要求報告:隨機效果的變異成分(variance components)、模型比較(likelihood ratio test)、或多次隨機種子下的標準差。寫作時要意識到——讀者需要足夠的資訊來判斷你的模型是否穩健(robust),而不只是「跑出來好看」。
看一個例子:把一段「報喜不報憂」的結果改成可信版本
下面是一段常見的初稿,技術上沒有錯字,但散發著「我只挑好的講」的氣味:
❌ 不佳:Our model achieved 94% accuracy, dramatically outperforming all baselines and demonstrating the clear superiority of our approach. (我們的模型達到 94% 準確率,大幅超越所有基準模型,展現出我們方法的明顯優越性。)
問題在於:(1) "94% accuracy" 沒有變異資訊(是單次跑的嗎?多次平均?標準差多少?);(2) "dramatically / clear superiority" 是主觀宣稱;(3) 沒提任何代價或限制——讀者會懷疑你是不是藏了什麼。改良時加入變異、對比的精確幅度、以及一個誠實的取捨:
✅ 改良:Averaged over five random seeds, our model reached 94.1% accuracy (SD = 0.6), compared with 89.3% for the strongest baseline—a 4.8-percentage-point gain (95% CI [3.9, 5.7]). This improvement came at the cost of a 2.3× increase in training time, a trade-off we examine in the Discussion. (在五個隨機種子下平均,我們的模型達到 94.1% 準確率(SD = 0.6),相較於最強基準的 89.3%——提升 4.8 個百分點(95% CI [3.9, 5.7])。此改進的代價是訓練時間增加 2.3 倍,我們將在討論章探討此一取捨。)
改良版立刻顯得可信:有多次平均與標準差、有精確的對比幅度與 CI、甚至主動揭露了一個缺點(訓練時間變長)。一個願意說出自己方法代價的作者,遠比一個只會喊 "clear superiority" 的作者更有說服力。
圖表的「修辭」:誠實視覺化也是寫作的一部分
結果章的「文字」不只是正文,圖表本身就在「說話」——而它可能說真話,也可能說謊。進階作者必須意識到:圖表的設計選擇是一種修辭(rhetoric),有對應的倫理。
幾個常見的誠實性陷阱:
1. 截斷的 Y 軸(truncated axis)。 把長條圖的 Y 軸從 80 開始(而非 0),會讓 82 和 85 的差距看起來像天壤之別。在比較絕對量值的長條圖中,這是經典的誤導手法。寫圖說(caption)或選軸時要自問:這個視覺對比,忠實反映了實際的效果量嗎?
2. 隱藏個別資料點。 只畫平均數的長條圖(bar chart)會藏住分布——兩組「平均相同」可能一組集中、一組兩極分化。現代慣例越來越鼓勵用點圖、箱形圖或小提琴圖(dot/box/violin plots)疊加原始資料點,讓讀者看見離散程度與離群值。
3. 誤差線(error bars)沒說清楚代表什麼。 同樣一根誤差線,可能是標準差(SD)、標準誤(SE)、或 95% CI,三者長度差很多、意義也不同。圖說裡不寫清楚誤差線代表什麼,等於沒給。
❌ 不佳的圖說:Figure 3. Mean scores for each group. Error bars show variability. (圖 3。各組平均分數。誤差線表示變異。)
✅ 改良的圖說:Figure 3. Mean test scores by condition (N = 120). Error bars represent 95% confidence intervals; individual data points are overlaid to show the underlying distribution. (圖 3。各條件下的平均測驗分數(N = 120)。誤差線代表 95% 信賴區間;疊加的個別資料點呈現底層分布。)
改良的圖說精確說明了誤差線的意義(95% CI)、樣本數、以及視覺化策略。一個好的圖說應該能讓圖獨立於正文被讀懂(self-contained)——這是頂尖期刊的隱性標準。
動手試試:替這段視覺化決策「除錯」
某學生這樣描述他的圖:「我把成功率做成長條圖,為了讓差異更明顯,Y 軸從 70% 開始,而且只畫了平均,沒放誤差線,因為這樣看起來比較乾淨。」
請找出三個倫理/溝通問題:
- Y 軸從 70% 開始 → 人為放大視覺差異,可能讓 2% 的差距看起來像巨大鴻溝。比較絕對量時,長條圖應從 0 起。若差異真的很小,那就是一個誠實的發現,不該用視覺手法掩蓋。
- 只畫平均、沒有誤差線或資料點 → 讀者無從判斷差異的不確定性與組內離散。沒有變異資訊的長條圖,是「看起來精確、實則資訊不足」的典型。
- 「比較乾淨」當理由 → 把「美觀」凌駕於「資訊完整」之上,是視覺修辭的滑坡。乾淨應該來自設計品質,不是來自隱藏資訊。
改良方向: 改用點圖或箱形圖疊加原始資料點,Y 軸從 0 起(或在無法從 0 起時明確標註並說明理由),加上代表 95% CI 的誤差線,並在圖說寫清楚。
重點回顧
- 誠實揭露分母與校正狀態。 跑了幾個檢定、報告了幾個,要讓讀者知道;標明 uncorrected / pre-registered / exploratory,避免選擇性報告誇大可信度。
- 不顯著 ≠ 沒有效果。 「無法拒絕 H₀」只代表證據不足,不代表沒差異;用信賴區間展示不確定性,必要時用等價檢定主張「實質無差異」。
- 反預期的結果照實報告,把「為什麼」留給 Discussion。 "Contrary to the hypothesis..." 是專業而誠實的開場。
- 把信賴區間當預設配備。 CI 同時傳達效果大小與估計精確度,資訊量勝過孤立的 p 值;別把 95% CI 誤解成「真值有 95% 機率落在內」。
- 複雜模型:正文講故事、表格載全部,並報告整體適配度與穩健性。 圖表是會說話的修辭——軸的起點、誤差線的定義、是否顯示原始資料點,都是誠實性的一部分。
深入探討(研究所視角)
當你開始寫多研究(multi-study)論文、或投稿頂尖 venue 時,結果章的書寫會升級為一門關於證據累積與不確定性溝通的功夫。
1. 多研究論文的結果架構。 一篇含三個實驗的論文,每個 Study 都有自己的迷你結果段,但整體需要一條貫穿的論證弧(narrative arc):Study 1 建立基本效果,Study 2 排除替代解釋(alternative explanation),Study 3 檢驗邊界條件(boundary condition)或機制。成熟的寫法會在每個 Study 結果末尾加一句「橋接句(bridging sentence)」,預告下一個研究要解決什麼殘留問題。這時「結果的呈現順序」不只是組織問題,而是證據如何層層說服讀者的修辭設計。可考慮在末尾用內部統合分析(internal meta-analysis)把跨研究的效果量整合,呈現更穩健的整體估計。
2. 多重比較與錯誤發現率(false discovery rate, FDR)。 當你跑數十、數百個檢定(如腦影像的逐體素分析、基因表現研究、大規模 A/B 測試),族系錯誤率(family-wise error rate)會爆炸。Bonferroni 校正過於保守,現代做法傾向控制 FDR(如 Benjamini–Hochberg 程序)。結果章要明確交代你用了哪種校正、在什麼門檻下宣稱發現。寫清楚校正方法,本身就是抵禦「這只是運氣」這種審稿質疑的盾牌。
3. 不確定性的多層次溝通。 進階研究者會意識到:報告裡的不確定性不只一種。除了抽樣不確定性(sampling uncertainty,由 SE/CI 捕捉),還有模型不確定性(model uncertainty:換個模型設定結果會不會變)與測量不確定性(measurement uncertainty)。敏感度分析(sensitivity analysis)與穩健性檢查(robustness checks)——「換掉這個假設、剔除這批資料、用另一種估計法,結論還站得住嗎?」——正逐漸成為高品質結果章的標配。能主動展示「我的結論不依賴某個任意決定」的作者,最能贏得審稿人信任。
4. 貝氏取向的另類書寫。 頻率學派的 p 值與 CI 之外,貝氏(Bayesian)分析提供了另一套結果語言:後驗分布(posterior distribution)、可信區間(credible interval,可以直接說「真值有 95% 機率落在此區間」——這正是大家誤以為 CI 能說的)、以及貝氏因子(Bayes factor,可量化「支持 H₁ 相對於 H₀ 的證據強度」,甚至能直接表達「支持虛無假設」這件頻率學派做不到的事)。若你的領域開始接受貝氏方法,學會用後驗機率陳述結果,會讓你的不確定性溝通更直觀。
5. 可重複性基礎設施與結果章的未來。 開放科學(open science)正在重塑結果章:許多期刊已要求附上可執行的分析腳本,讓圖表能從原始資料一鍵重現(reproducible figures);計算筆記本(如 R Markdown、Jupyter、Quarto)讓「文字 + 程式碼 + 輸出」綁在一起,杜絕手動複製貼上的轉錄錯誤。對 Uedu 這類整合多模態學習資料的研究而言更是關鍵——當你的結果來自生理訊號、對話軌跡、學習歷程的交叉分析,每一步前處理與分析決策都應可被追溯。換言之,未來的結果章不再是一段靜態文字,而是一份可被獨立重新執行的證據鏈;學會把寫作與可重複性流程整合,會是這個世代研究者的核心素養。