學習進階：預測誤差、多巴胺與記憶如何被改寫

從 Rescorla–Wagner 模型到測驗效應，看學習如何從「行為的描述」走向「大腦的計算」

進階 · 約 14 分鐘 ·#預測誤差#多巴胺#強化學習#記憶固化#提取練習

為什麼「驚喜」才是學習的引擎？

入門篇裡，巴夫洛夫的狗聽到鈴聲就分泌唾液，手機提示音讓你忍不住伸手解鎖。那是行為主義的經典畫面：刺激配對刺激，反應被強化。但如果你停在這裡，會錯過二十世紀後半到今天最深刻的一個轉折——學習的核心，其實不是「配對」本身，而是預期落空的瞬間。

設想一個情境：你已經很熟悉一間咖啡廳，每次推門進去店員都會說「歡迎光臨」。久而久之，這句話幾乎不再進入你的意識。某天你推門進去，店員卻說「欸，你昨天忘了拿發票」。這一刻你會記得清清楚楚，甚至晚上躺在床上還會想起來。為什麼一句熟悉的招呼被忽略，而一句意外的話卻牢牢刻進記憶？

答案藏在一個看似簡單、卻重寫了整個學習理論的概念裡：預測誤差（prediction error）。本篇就從這裡出發，帶你看學習如何從「行為的描述」走向「大腦的計算」。

從配對到計算：Rescorla–Wagner 模型

學習進階概念示意圖

行為主義有個漂亮但有缺陷的假設：刺激出現得越多次、配對得越緊密，連結就越強。聽起來合理，直到一個實驗推翻它。

1969 年，Leon Kamin 做了「阻斷效應（blocking effect）」實驗。先讓動物學會「燈光 → 電擊」，等這個連結穩固後，再同時呈現「燈光＋聲音 → 電擊」。按照單純配對的邏輯，聲音和電擊配對了很多次，動物應該也會怕聲音。但結果是：動物幾乎沒有學到聲音的意義。聲音被「阻斷」了。

為什麼？因為燈光已經能完美預測電擊，電擊的出現「不令人意外」。聲音沒有提供任何新的資訊，於是大腦不更新對聲音的評價。

1972 年，Robert Rescorla 與 Allan Wagner 把這個洞見寫成一條數學式，成為學習心理學最有影響力的公式之一：

ΔV = α × β × (λ − ΣV)

別被符號嚇到，它在說一件很直覺的事。λ 是這次實際發生的結果（例如電擊的強度），ΣV 是動物根據目前所有線索預期會發生的結果。兩者相減，(λ − ΣV)，就是預測誤差——實際與預期的差距。學習量 ΔV，正比於這個差距。

換句話說：

當事情如你所料（誤差 ≈ 0），你幾乎不學任何東西。
當事情出乎意料（誤差大），你大幅更新。

回到咖啡廳。「歡迎光臨」誤差為零，被忽略；「你忘了拿發票」誤差很大，被牢記。阻斷效應也順理成章：燈光已把預期拉滿，聲音加進來時誤差已經很小，沒得學。

這條式子的革命性在於：學習第一次被寫成一個可計算的歷程，而不只是行為的累積。它預測了行為主義無法解釋的現象，這正是好理論的標誌。

大腦真的在算誤差嗎？多巴胺的故事

理論再漂亮，也得問一句：大腦裡真有東西在計算預測誤差嗎？

1990 年代，Wolfram Schultz 在猴子身上記錄中腦多巴胺神經元（dopamine neurons）的放電，得到一組讓神經科學界震動的結果。

長期以來，多巴胺被通俗地稱為「快樂分子」或「獎賞訊號」。但 Schultz 看到的不是這樣：

訓練初期，猴子拿到果汁時，多巴胺神經元劇烈放電。看起來像在訊號「獎賞來了」。
訓練後期，當一個燈光總是先於果汁出現，多巴胺的放電從果汁的時刻移到了燈光的時刻。果汁本身（已被預測）不再引發放電。
如果預期的果汁沒來，多巴胺神經元的放電會在該出現果汁的時刻掉到基線以下——一個負向訊號。

把這三點合起來看，多巴胺編碼的根本不是「獎賞」，而是獎賞預測誤差（reward prediction error）：比預期好就上升，如預期就持平，比預期差就下降。這幾乎是 Rescorla–Wagner 的 (λ − ΣV) 在神經元層次的化身。

這項發現後來與電腦科學的時序差分學習（Temporal Difference learning, TD learning）接軌。Richard Sutton 與 Andrew Barto 發展的強化學習（reinforcement learning）演算法，核心也是用預測誤差去更新對「未來價值」的估計——同一套數學，竟同時描述了猴子的多巴胺與訓練 AlphaGo 的演算法。今天你聽到的「強化學習」AI，骨子裡和巴夫洛夫的狗共用一條原理。

需要澄清一個常見迷思：多巴胺不等於「爽」。它更接近「值得學的訊號」。把它簡化成快樂分子，會誤解成癮、動機與學習的整個機制。

學了之後呢？記憶的固化與再固化

預測誤差告訴我們「何時學」，但學到的東西怎麼留下來、又怎麼被改寫？這要進到記憶的固化（consolidation）。

剛形成的記憶是脆弱的。它需要時間，把短期的、易受干擾的痕跡，轉成長期的、穩固的儲存。這個過程牽涉海馬迴（hippocampus）與大腦皮質的對話，而且睡眠扮演關鍵角色——尤其是慢波睡眠期間，海馬迴會「重播（replay）」白天的神經活動序列，把記憶逐步移交給皮質長期保存。這也是為什麼熬夜硬撐的學習效率往往很差：你剝奪了大腦整理檔案的時間。

更顛覆直覺的是再固化（reconsolidation）。長久以來人們以為記憶一旦固化就像刻在石頭上。但 2000 年 Karim Nader 等人的研究顯示：當一段舊記憶被提取（retrieve）出來時，它會短暫回到不穩定狀態，需要再一次固化才能存回去。在這個「重新可塑」的窗口裡，記憶可以被加強、被修改，甚至被干擾。

這不是冷知識。它意味著：回憶本身會改變記憶。每次你回想一件往事，存回去的版本都可能被當下的情緒與資訊微調。法庭上目擊者證詞的不可靠、創傷治療裡改寫恐懼記憶的嘗試，背後都是再固化在運作。記憶不是錄影帶，而是每次播放都會重錄一次的劇本。

為什麼「考自己」比「重讀」更有效？

把上面的機制連起來，會得到一個對你直接有用的結論。我們先看一個被反覆驗證的現象。

看一個例子：測驗效應

2006 年，Henry Roediger 與 Jeffrey Karpicke 做了一個經典實驗。學生讀一段文章後分成兩組：

重讀組：再讀一次文章。
測驗組：不重讀，而是蓋上文章，盡力回想內容（一次提取練習）。

如果你問學生哪一組學得比較好，多數人——包括測驗組自己——都覺得重讀比較紮實。短期測驗（五分鐘後）也確實是重讀組分數略高。

但一週後再測，結果反轉：測驗組的長期保留率明顯高於重讀組。費力去「提取」記憶，比舒服地「再輸入」一次，留下更持久的痕跡。這就是測驗效應（testing effect），又稱提取練習（retrieval practice）。

為什麼？把前面的機制接上來：

提取是一次主動重建，不是被動辨識。重讀時你看著答案，產生「我懂了」的流暢錯覺（fluency illusion）；提取時你被迫從零生成，暴露了真正的漏洞——這本身就是一次預測誤差訊號。
每次成功提取，都觸發一次再固化，把記憶存回去時順帶強化、並建立更多提取線索。
提取的「困難」不是壞事。這呼應了 Robert Bjork 提出的理想難度（desirable difficulties）：適度的費力會讓學習更深、更持久，即使當下感覺更糟、進步更慢。

動手試試

下次準備一個概念，先別急著畫重點、重讀。試試這個流程：

讀完一段後，蓋上材料。
拿白紙，憑記憶寫下剛剛的核心要點（自由回憶，free recall）。
寫不出來的地方，正是你的漏洞——翻回去只補那一塊，不要整段重讀。
把複習排在幾天後而不是當天連續複習（間隔練習，spaced practice）。

間隔的力量同樣有實證根基，可上溯到 1885 年 Hermann Ebbinghaus 的遺忘曲線（forgetting curve）。他用自己當受試者背無意義音節，量化了記憶隨時間衰退的軌跡，並發現重新學習已遺忘的材料比第一次快——這個「節省（savings）」現象，正是間隔複習有效的最早證據。在記憶快要遺忘、提取有點吃力時複習，效果最好；太早複習（記憶還很鮮明）幾乎是浪費。

把「提取練習＋間隔練習」結合，是認知心理學給學生最可靠、CP 值最高的建議——可惜它感覺起來最不爽，所以最少人用。

重點回顧

預測誤差是學習的引擎：Rescorla–Wagner 模型用 (λ − ΣV) 把學習量綁定在「實際與預期的差距」上。事情如你所料時，你幾乎不學；出乎意料時，你大幅更新。
阻斷效應證明單純的配對次數不足以解釋學習——已被預測的結果不再帶來新資訊。
多巴胺編碼的是獎賞預測誤差，不是快樂本身；它與 AI 的時序差分強化學習共用同一套數學。
記憶會固化也會再固化：提取一段記憶會讓它短暫變得可塑，因此「回憶會改寫記憶」，睡眠則是固化的關鍵時段。
測驗效應與間隔練習是最有實證支持的讀書法：費力的提取勝過舒服的重讀，理想難度讓學習更持久。

深入探討（研究所視角）

若要再往前推一層，有幾條值得追的線索。

第一，模型的繼承與超越。 Rescorla–Wagner 雖強，卻有已知限制：它假設線索的「可學性（associability）」固定，無法解釋潛抑制（latent inhibition）等現象。後續的 Mackintosh（1975） 與 Pearce–Hall（1980） 模型，把注意力（attention）動態化——Pearce–Hall 主張預測誤差大的線索反而獲得更多注意力，與 Rescorla–Wagner 形成互補。現代觀點傾向認為大腦同時用多套機制，視情境切換。

第二，model-free 與 model-based 的二分。 強化學習在認知神經科學裡分成兩派系統：model-free（習慣性、緩慢累積價值，對應背側紋狀體與多巴胺 TD 訊號）與 model-based（目標導向、會用內在的環境模型做前瞻推理，對應前額葉與海馬迴）。Daw、Dolan 等人用「two-step task」行為派典，證明人類在兩套系統間動態權衡——壓力、認知負荷會把人推向 model-free 的習慣模式。這對理解成癮、強迫行為與決策都有深遠意涵。

第三，突觸層次的基質。 把預測誤差「寫進」突觸的細胞機制，核心是 長期增益（long-term potentiation, LTP） 與 長期抑制（long-term depression, LTD），源自 Bliss 與 Lømo（1973）在海馬迴的發現。其中 NMDA 受體 作為「巧合偵測器（coincidence detector）」，只有在突觸前後活動同時發生時才開啟鈣離子通道，啟動可塑性——這在分子層次呼應了 Hebb（1949）的名言「fire together, wire together」。從 Hebb 的猜想到 NMDA 的分子確證，是一條跨越半世紀的漂亮故事。

第四，再固化的臨床前景與爭議。 若提取會打開記憶的可塑窗口，理論上可在窗口內以藥物（如 propranolol 阻斷正腎上腺素）或行為干預削弱病理性恐懼記憶。這在 PTSD 治療上引發大量研究，但臨床轉譯的結果並不一致——窗口的邊界條件（記憶強度、年齡、提取方式）遠比早期樂觀預期複雜。這提醒我們：動物模型的乾淨機制，到人類複雜記憶往往要打折扣，是值得保持批判的前沿。

如果你想動手，two-step task 與 delay discounting 是兩個容易上手、又能連結到行為經濟學與計算精神醫學的派典；而把 Rescorla–Wagner 寫成幾行 Python 模擬阻斷效應，是體會「學習即計算」最快的方式。學習的科學，正從描述行為，走向逆向工程大腦的更新規則——而你每一次費力的回想，都是這套規則在你身上運作的證據。

← 上一篇

學習的科學：從巴夫洛夫的狗到你手機的提示音

--

3

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定