會計師不可能查每一筆，那他到底「查多少」才算夠？

深入審計抽樣的統計骨架：屬性抽樣查內控、貨幣單位抽樣（MUS）查金額高估、實質分析性程序不抽樣也能取證，看偵查風險如何被一筆筆「算」出來。

進階 · 約 15 分鐘 ·#審計#統計抽樣#貨幣單位抽樣#分析性程序#抽樣風險#內部控制

會計師不可能查每一筆，那他到底「查多少」才算夠？

入門篇告訴你，審計提供的是「合理確信」而非絕對保證，而合理確信之所以做不到絕對，第一個原因就是「抽樣」（Sampling）——會計師不可能逐筆檢查數十萬張傳票。聽起來很合理，但這句話其實藏了一個更尖銳的問題：既然只抽一部分，那要抽幾筆？抽到的結果，憑什麼可以推論到整個母體？萬一抽樣剛好漏掉了那筆舞弊呢？

這不是憑感覺決定的。現代審計把「抽多少、怎麼推論、容許多少風險」變成一套統計決策。本文要深入入門篇刻意略過的硬核機器：統計抽樣（Statistical Sampling）的數學骨架——包含查核控制用的屬性抽樣（Attribute Sampling）、查核金額用的貨幣單位抽樣（Monetary Unit Sampling, MUS），以及用比率與迴歸「不查單筆也能下結論」的實質分析性程序（Substantive Analytical Procedures）。讀完你會明白：審計風險模型裡那個「會計師唯一能控制的偵查風險」，是怎麼一筆一筆被「算」出來的。

審計進階概念示意圖

為什麼抽樣不是「隨便抽幾筆」

先釐清一個迷思。很多人以為抽樣就是「老闆覺得抽 30 筆差不多」。在審計裡，這叫非統計抽樣（Non-statistical Sampling），它依賴專業判斷、可以用、但無法量化抽樣風險。與之相對的是統計抽樣（Statistical Sampling），它用機率論決定樣本量、用機率論解釋結果，最大的好處是：抽樣風險（Sampling Risk）變成一個可以計算、可以控制的數字。

什麼是抽樣風險？就是「樣本的結論」與「對整個母體做全查會得到的結論」不一致的可能性。它有兩個方向，後果天差地別：

風險類型	控制測試情境	實質測試情境	後果
過度信賴風險 / 誤受風險（Risk of Incorrect Acceptance）	內控其實無效，卻判斷有效	餘額其實有重大誤述，卻判斷允當	影響查核效果：簽錯意見，最危險
過度不信賴風險 / 誤拒風險（Risk of Incorrect Rejection）	內控其實有效，卻判斷無效	餘額其實允當，卻判斷有誤述	影響查核效率：白做工、擴大查核、成本上升

兩者都是錯，但會計師最怕的是第一類——誤受。因為誤拒只是讓你多花成本查證，最後真相會浮現；誤受卻會讓一張該被退回的報表掛上無保留意見，等到事發已是訴訟與聲譽崩塌。所以統計抽樣的整套設計，核心就是把「誤受風險」壓到可接受的低水準。這裡的「可接受誤受風險」，其實就是入門篇審計風險模型裡偵查風險（DR）的具體化身。

屬性抽樣：查「內控有沒有照做」

控制測試（Test of Controls）問的是一個「是非題」：這項控制有沒有確實執行？例如「每張採購單是否都有經理核章」。每一筆抽出來的單據，結果只有兩種——有章（符合）或沒章（偏差，Deviation）。這種「成功/失敗」的二元結構，統計上對應二項分配（Binomial Distribution），使用的抽樣方法稱為屬性抽樣。

屬性抽樣要先設定三個參數：

可容忍偏差率（Tolerable Deviation Rate, TDR）：你願意接受的最高偏差率。超過它，就認定這項控制不可信賴。
預期母體偏差率（Expected Deviation Rate, EDR）：根據過去經驗或前測，預估母體實際的偏差率。
過度信賴風險（Risk of Overreliance）：通常設 5% 或 10%。

樣本量會隨「TDR 越小、EDR 越接近 TDR、可接受風險越低」而急遽放大。直覺上：你要求越嚴（容忍度低）、母體越爛（預期偏差高）、又越不能出錯（風險低），自然要看更多筆才敢下結論。

查完之後，關鍵在於計算樣本偏差率上限——也就是偏差率上限（Upper Deviation Limit, UDL）：

$$ \text{UDL} = \text{樣本偏差率} + \text{抽樣風險寬容（Allowance for Sampling Risk）} $$

判斷規則乾淨俐落：

$$ \text{若 } \text{UDL} \le \text{TDR} \implies \text{控制可信賴；反之則否} $$

看一個例子：採購核章控制測試

某公司全年採購單約 8,000 張。會計師設定可容忍偏差率 TDR = 6%、過度信賴風險 = 5%、預期偏差率 EDR = 1%。查表得樣本量約 78 張（此處用抽樣表結果，實務上由統計表或軟體決定）。會計師隨機抽 78 張，發現其中 2 張缺核章。

樣本偏差率：

$$ \text{樣本偏差率} = \frac{2}{78} \approx 2.56\% $$

光看 2.56% 小於 6%，會不會就放心了？不行。 樣本偏差率只是「點估計」，必須加上抽樣風險寬容。在 5% 風險、78 筆、2 個偏差下，查統計表得偏差率上限 UDL 約為 7.6%：

$$ \text{UDL} \approx 7.6\% \; > \; \text{TDR} = 6\% $$

結論：即使樣本只有 2.56% 偏差，UDL 仍超過容忍門檻，會計師不能信賴這項控制。換句話說，控制風險（CR）評估必須調高，連帶迫使偵查風險（DR）下降——會計師必須擴大後續的實質測試。這正是入門篇「內控越弱、實質測試越多」那句話背後的數學機制。

貨幣單位抽樣：查「金額有沒有虛報」

控制測試問是非，實質細項測試（Substantive Test of Details）問的卻是「金額對不對、有沒有高估」。這時二元結構不夠用，因為一筆 1,000 萬元的錯與一筆 100 元的錯，影響天差地別。審計實務最常用的解法是貨幣單位抽樣（Monetary Unit Sampling, MUS），又稱機率與規模成比例抽樣（Probability-Proportional-to-Size, PPS）。

MUS 的天才之處在於：它不是把「每一筆交易」當抽樣單位，而是把「每一塊錢」當抽樣單位。一筆 1,000 萬元的應收帳款，內含 1,000 萬個被抽中的機會；一筆 100 元的只有 100 個機會。結果就是金額越大的項目，越容易被抽中——這完全符合審計直覺：大金額本來就該優先查，因為它對重大性的威脅最大。

MUS 的樣本量由一條簡潔的公式決定：

$$ n = \frac{\text{母體帳列金額（Book Value）} \times \text{信賴因子（Reliability Factor, RF）}}{\text{可容忍誤述（Tolerable Misstatement, TM）} - (\text{預期誤述} \times \text{擴張因子})} $$

其中信賴因子由可接受的誤受風險決定：誤受風險 5% 對應 RF ≈ 3.0、10% 對應 RF ≈ 2.3。抽樣的「間距」（Sampling Interval）則是：

$$ \text{抽樣間距} = \frac{\text{母體帳列金額}}{n} $$

實作上，會計師把所有項目金額累加，然後每隔一個「間距」就抽中落在那個累計點上的項目。

動手試試：應收帳款的 MUS

延續入門篇晶睿公司的場景，假設應收帳款母體帳列總額為 8,000 萬元。會計師設定可容忍誤述 TM = 400 萬元（低於整體重大性）、可接受誤受風險 5%（RF = 3.0），先假設預期誤述為 0 以簡化：

$$ n = \frac{80{,}000{,}000 \times 3.0}{4{,}000{,}000} = 60 \text{ 個（樣本量）} $$

$$ \text{抽樣間距} = \frac{80{,}000{,}000}{60} \approx 1{,}333{,}333 \text{ 元} $$

意義是：每累積約 133 萬元就抽中一筆。任何帳列金額大於 133 萬元的單筆項目，必然被抽中（因為它一定跨過至少一個間距點），這保證了大額項目 100% 被查——這是 MUS 相對於傳統隨機抽樣最受推崇的特性。

接著看怎麼推估母體誤述。假設抽中的某筆帳列 80 萬元，查證後真實金額只有 60 萬元，高估了 20 萬元。MUS 用污染率（Tainting）換算這筆抽樣單位代表的誤述：

$$ \text{污染率} = \frac{\text{帳列} - \text{查得}}{\text{帳列}} = \frac{800{,}000 - 600{,}000}{800{,}000} = 25\% $$

由於這筆金額（80 萬）小於抽樣間距（133 萬），它代表的是整個間距的一個樣本，推估誤述為：

$$ \text{推估誤述} = \text{污染率} \times \text{抽樣間距} = 25\% \times 1{,}333{,}333 \approx 333{,}333 \text{ 元} $$

把所有抽中項目的推估誤述加總，再加上信賴因子帶來的基本精確度（Basic Precision），就得到誤述上限（Upper Misstatement Limit, UML）。判斷規則同樣乾淨：

$$ \text{若 } \text{UML} \le \text{TM} \implies \text{餘額允當（接受）；反之則需擴大查核或建議調整} $$

注意一個細節：若抽中項目的帳列金額大於或等於抽樣間距，就不需要污染率推估——因為它本來就被 100% 全查了，直接用實際查得的誤述金額即可。這就是為什麼 MUS 對「大額高估」特別敏銳。

不查單筆也能下結論：實質分析性程序

抽樣是「由部分推全體」，但審計還有另一條更高效的路——實質分析性程序（Substantive Analytical Procedures）。它的核心思想是：如果某個會計科目與其他變數之間有穩定、可預測的關係，那麼會計師可以先建立一個「期望值」，再拿期望值與帳列數比對。只要兩者落差在容許範圍內，就能對該科目取得實質證據——完全不必抽任何一筆傳票。

最經典的例子是利息費用。借款利息高度可預測：

$$ \text{期望利息費用} = \text{平均借款餘額} \times \text{平均利率} $$

假設某公司平均借款 5 億元、平均年利率 3%，期望利息費用約 1,500 萬元。若帳列利息費用是 1,480 萬元，落差僅 20 萬元（1.3%），在重大性容許範圍內，會計師對「利息費用無重大誤述」就有了合理把握。但若帳列是 2,200 萬元，多出近 700 萬元無法解釋，這就是強烈紅旗——可能漏列了某筆借款、或利息資本化處理有誤。

更進階的版本會用迴歸分析（Regression）建立期望模型。例如以歷史資料估計「水電費」與「產量、氣溫」的關係：

$$ \hat{Y} = \beta_0 + \beta_1 \cdot \text{產量} + \beta_2 \cdot \text{平均氣溫} + \varepsilon $$

把本期的產量與氣溫代入，得到期望水電費，再與帳列比較。落差超過門檻值（Threshold）才需追查。實質分析性程序有效的四個前提是：(1) 關係本身可信且穩定；(2) 資料可靠（最好來自外部或受良好內控保護）；(3) 期望值夠精確；(4) 落差門檻設得夠嚴。少了任何一個，分析性程序就只能當「指認方向的指南針」，不能當「下結論的證據」。

重點回顧

抽樣風險是可計算、可控制的數字：統計抽樣相對非統計抽樣的最大價值，在於量化抽樣風險；其中誤受風險（影響查核效果）遠比誤拒風險（影響效率）危險，是整套設計要壓低的對象，也是審計風險模型中偵查風險（DR）的具體化身。
屬性抽樣查控制、看是非：以二項分配為基礎，比較偏差率上限 UDL 與可容忍偏差率 TDR；UDL 必須加上抽樣風險寬容，光看樣本偏差率會誤判。
貨幣單位抽樣（MUS）查金額、看高估：以「每一塊錢」為抽樣單位，大金額必被抽中；用污染率 × 抽樣間距推估誤述，比較誤述上限 UML 與可容忍誤述 TM。
MUS 對大額高估特別敏銳：帳列金額 ≥ 抽樣間距者一律全查、不需污染率推估，天然契合重大性導向。
實質分析性程序可不抽樣就取證：建立可預測的期望值（如利息 = 平均餘額 × 利率，或迴歸模型），與帳列比對，落差超門檻才追查；前提是關係穩定、資料可靠、期望精確。

深入探討（研究所視角）

進入研究所層次，審計抽樣與分析性程序背後是統計推論、決策理論與資料科學的交會地帶，至今仍有大量未解的研究與實務張力。

第一，貝氏更新與審計風險模型的再詮釋。 傳統 $AR = IR \times CR \times DR$ 是乘積式的點估計，但更嚴謹的觀點把審計視為貝氏推論（Bayesian Inference）：固有風險與控制風險構成「先驗機率」，每一項查核證據都是一次「資料更新」，逐步修正對「報表是否重大誤述」的後驗信念。MUS 的信賴因子其實隱含 Poisson 近似下的信賴上界，這讓抽樣結論能無縫接入貝氏框架。研究上，如何在「會計師主觀先驗」與「客觀統計」之間取得平衡，仍是審計判斷研究的核心議題。

第二，全量資料時代抽樣會消失嗎？ 當交易全面電子化、會計師能對整個母體做分析，「抽樣」的存在理由似乎被動搖。資料分析（Audit Data Analytics, ADA）讓 100% 檢測成為可能——用 Benford 定律檢測數字首位分布異常、用孤立森林（Isolation Forest）等非監督式學習標記離群交易、用流程探勘（Process Mining）重建並比對交易流程。但全量分析帶來新問題：偽陽性爆炸（離群不等於錯誤）、以及「例外（Exception）不等於誤述」的判斷負擔。學界正辯論：當會計師面對機器標出的數千筆例外，專業懷疑與判斷的角色是被強化還是被稀釋？

第三，分析性程序的精確度悖論。 迴歸式期望模型越精準，理論上越能取代細項測試、提升效率；但模型越複雜，模型風險（Model Risk）也越高——過度配適（Overfitting）、資料外推、結構性斷裂（如疫情、政策變動使歷史關係失效）都可能讓「看似精準的期望」變成「精準的錯」。如何驗證分析模型本身的可靠性，正成為查核「演算法輔助查核」時的元問題。

第四，抽樣風險與訴訟風險的不對稱。 從決策理論看，誤受與誤拒的成本天差地別，理性的會計師會在「期望損失最小化」下決定樣本量與精確度。但這個最優解受法律責任制度（連帶責任 vs. 比例責任）、事務所聲譽資本與保險市場強烈影響。量化這些制度因素如何反向形塑會計師的抽樣保守程度與查核投入，是審計經濟學最活躍的前沿之一。

審計抽樣的迷人之處在於：它把「我到底相不相信這張報表」這個極度人性的判斷，翻譯成機率、間距與信賴因子的精密語言。讀懂它，你會發現會計師的簽名背後，不是直覺，而是一整套可被檢驗的推論結構。

← 上一篇

財報上的數字，憑什麼讓人相信？

--

3

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

會計師不可能查每一筆，那他到底「查多少」才算夠？