學習的科學：從巴夫洛夫的狗到你手機的提示音

古典制約、操作制約與觀察學習，如何在日常生活中悄悄塑造我們的行為

大學入門到研究所視角 · 約 15 分鐘 ·#古典制約#操作制約#觀察學習#增強時制#行為主義#強化學習

為什麼鈴聲一響，你就忍不住看手機？

想像一個畫面：你正專心讀書，手機在桌角輕輕「叮」了一聲。即使你還沒看到內容，心跳已經悄悄加速，手指不由自主地伸了過去。沒有人教你「聽到提示音就要拿手機」，但你卻學會了。這一連串幾乎反射式的反應，並不是天生寫進基因裡的，而是被「學習」一點一滴塑造出來的。

在心理學裡，「學習」（learning）有一個遠比日常用語精確的定義：因經驗而產生的、相對持久的行為或行為潛能改變。請注意這個定義的每個轉折。「因經驗」排除了單純成熟（maturation）或生病、疲勞造成的暫時變化；「相對持久」排除了喝咖啡後一時的亢奮；「行為潛能」則提醒我們，學習未必立刻表現出來——你可能學會了某件事，卻要等到適當情境才展現。

這篇文章將帶你走過學習心理學的三大支柱：古典制約（classical conditioning）、操作制約（operant conditioning），以及觀察學習（observational learning）。它們各自回答了一個不同的問題：我們如何把不相干的刺激連結起來？我們如何透過後果調整行為？我們又如何僅僅靠「看別人做」就學會新事物？

學習概念示意圖

古典制約：兩件事被綁在一起

故事要從一位俄國生理學家說起。伊凡．巴夫洛夫（Ivan Pavlov）原本研究的是狗的消化系統，他想測量狗看到食物時分泌多少唾液。但他注意到一個「干擾」：實驗進行一段時間後，狗在食物還沒端上來、只是聽到實驗助理的腳步聲時，就開始流口水了。對嚴謹的生理學家來說這是雜訊，但巴夫洛夫卻意識到，這裡藏著學習的祕密。

他設計了著名的實驗。食物本身會自然引發唾液分泌，這是不需要學習的反射，因此食物稱為非制約刺激（unconditioned stimulus, UCS），所引發的唾液是非制約反應（unconditioned response, UCR）。鈴聲原本對狗毫無意義，是個中性刺激（neutral stimulus）。巴夫洛夫反覆讓鈴聲緊接著食物出現，經過多次配對之後，奇妙的事發生了：單獨響鈴，狗也會流口水。此時鈴聲成了制約刺激（conditioned stimulus, CS），所引發的唾液則是制約反應（conditioned response, CR）。

古典制約的核心，是讓一個原本中性的刺激「借」到另一個刺激本來就有的反應力。回到開頭的例子：手機提示音原本是中性的，但它一次又一次伴隨著訊息、按讚、社群回饋（這些才是真正讓人愉悅的非制約刺激），久了之後，光是提示音就能讓你心跳加速、注意力被攫取。

看一個例子：小艾伯特實驗

古典制約不只作用於唾液這類生理反射，也能塑造情緒。1920 年，約翰．華生（John B. Watson）與蘿莎莉．雷納（Rosalie Rayner）進行了心理學史上著名（也具爭議）的「小艾伯特實驗」。他們讓一名約十一個月大的嬰兒接觸一隻白鼠，孩子原本並不害怕，會伸手去摸。接著，每當白鼠出現，研究者就在他背後猛敲鐵棒發出巨響——巨響是天生會引發驚嚇與哭泣的非制約刺激。幾次配對後，小艾伯特只要看到白鼠就驚恐大哭。

更值得注意的是，他的恐懼還類化（generalization）到了其他毛茸茸的東西：兔子、毛皮大衣，甚至聖誕老人面具。這顯示制約反應會擴散到與制約刺激相似的刺激上。與類化相對的是辨別（discrimination）——若只有特定的鈴聲伴隨食物、其他音高從不伴隨，狗最終會學會只對那個特定鈴聲反應。

這個實驗以今日的研究倫理標準絕不會被允許（孩子的恐懼未被消除、且缺乏知情同意），但它清楚示範了：許多非理性的恐懼與情緒反應，可能正是古典制約的產物。

消弱、自發恢復與「預測」的本質

如果制約刺激不斷出現、卻不再伴隨非制約刺激會怎樣？鈴聲響了又響，卻再也沒有食物，狗的唾液反應會逐漸減弱，最終幾乎消失，這稱為消弱（extinction）。但消弱並不是把學到的東西「抹除」。休息一段時間後，再次響鈴，往往又會引發微弱的唾液——這叫自發恢復（spontaneous recovery）。這個現象告訴我們，原本的連結並未真正刪除，只是被一層新的「鈴聲不再預測食物」的學習壓了下去。

這帶出一個現代觀點的重要修正。早期認為古典制約只要「刺激在時間上靠近」就會發生，但羅伯特．雷斯柯拉（Robert Rescorla）的研究改變了這個看法。他指出，關鍵不在於兩個刺激是否「同時出現」，而在於制約刺激是否能有效預測非制約刺激。如果鈴聲總是先於食物，鈴聲才有預測價值；如果食物在有鈴聲、沒鈴聲時出現的機率一樣高，鈴聲就學不起來。雷斯柯拉—華格納模型（Rescorla-Wagner model）用「預期誤差」（surprise）來量化學習：唯有當結果出乎預料時，連結才會更新。這個「預測誤差驅動學習」的洞見，後來深刻影響了人工智慧中的強化學習演算法。

操作制約：行為的後果會回過頭來塑造行為

古典制約處理的是「不由自主」的反應，但我們大量的行為其實是「主動操作環境」的——舉手發言、按下按鈕、努力念書。這類行為由它們帶來的後果所塑造，這就是操作制約（operant conditioning）的領域。

愛德華．桑代克（Edward Thorndike）最早用「迷籠」研究這件事。他把貓關進需要壓桿才能逃出的籠子，記錄牠每次脫困所花的時間。一開始貓只是亂抓亂撞，偶然壓到機關才出來；但隨著嘗試次數增加，脫困時間越來越短。桑代克據此提出效果律（law of effect）：帶來滿意結果的行為，日後在相同情境更可能重複；帶來不快結果的行為，則越來越少出現。

伯爾赫斯．史金納（B. F. Skinner）將這套思路系統化，並發明了「史金納箱」做精密測量。他提出區分兩種後果的關鍵架構，初學者最常在這裡混淆，請務必看清楚兩個維度：

增強（reinforcement）讓行為增加，懲罰（punishment）讓行為減少。
「正」（positive）指「給予某刺激」，「負」（negative）指「移除某刺激」——這裡的正負不是好壞，而是加減。

把兩個維度交叉，得到四種情況：

正增強：做出行為後給予愉快刺激（答對得到讚美），行為增加。
負增強：做出行為後移除厭惡刺激（繫安全帶後刺耳警示音停止），行為增加。
正懲罰：做出行為後給予厭惡刺激（觸碰熱爐被燙），行為減少。
負懲罰：做出行為後移除愉快刺激（違規被沒收手機），行為減少。

最常見的迷思，是把「負增強」當成懲罰。請記住：只要是增強，目的就是讓行為變多；負增強之所以叫「負」，是因為它靠「拿走討厭的東西」來達成。

動手試試：辨認你生活中的四種後果

試著把下面幾個情境對號入座，再核對答案：

你準時交作業，老師當眾稱讚你。
你戴上耳塞，惱人的工地噪音消失了，於是你下次更會主動戴耳塞。
弟弟亂丟玩具，被罰當天不能看影片。
你上班遲到，被主管嚴厲斥責。

答案：(1) 正增強——給予讚美使「準時」增加；(2) 負增強——移除噪音使「戴耳塞」增加；(3) 負懲罰——移除看影片的權利使「亂丟」減少；(4) 正懲罰——給予斥責使「遲到」減少。判斷訣竅是分兩步走：先問「這個後果讓行為變多還是變少」（增強 vs 懲罰），再問「是加了東西還是拿走東西」（正 vs 負）。

增強時制：為什麼吃角子老虎讓人欲罷不能

光知道「增強」還不夠，何時、以什麼節奏給予增強，會深刻影響行為的強度與持久度。史金納比較了幾種增強時制（schedules of reinforcement）：

固定比率（fixed ratio）：每做滿固定次數就增強一次（例如計件工資，每組裝十件給一次獎金）。
變動比率（variable ratio）：平均每若干次增強，但確切次數不可預測。吃角子老虎、社群媒體的點讚，都是這一型。
固定間隔（fixed interval）：固定時間過後的第一個反應才被增強（例如每週固定發薪）。
變動間隔（variable interval）：以不可預測的時間間隔給予增強（例如不知何時會被主管巡視）。

研究發現，變動比率時制產生最高、最穩定、也最難消弱的反應率。原因在於：既然「下一次就可能中獎」，停手就太可惜了。這正是賭博之所以容易成癮的行為機制。理解這一點，也讓我們對「間歇性回饋」如何牢牢抓住注意力，有了科學的解釋。

操作制約還有一個威力強大的技術：塑造（shaping）。當目標行為太複雜、不可能憑空一次出現時，可以先增強「接近目標的近似行為」，再逐步提高標準。訓練海豚跳火圈、教孩子寫字，都是靠一步步逼近完成的。

觀察學習：不必親自嘗試，看別人就能學會

到目前為止，兩種制約都假設個體必須親身經歷刺激或後果。但人類顯然不是這樣學習的——你不必親手碰過火，光看別人被燙到縮手，就學會了避開。亞伯特．班杜拉（Albert Bandura）用一系列研究，把「觀察學習」（observational learning，又稱社會學習）推上了舞台。

在著名的波波玩偶實驗（Bobo doll experiment）中，班杜拉讓一群兒童觀看大人對著一個充氣玩偶又打又踢、還口出攻擊言語；另一組兒童則看到大人安靜地玩。之後把孩子單獨留在有波波玩偶的房間裡，結果看過攻擊示範的兒童，明顯更會模仿那些攻擊動作，甚至創造出新的攻擊方式。這證明了：新行為可以僅透過觀察他人（楷模，model）而習得，不需要自己親身被增強。

班杜拉進一步指出，觀察學習要發生，需要四個歷程：注意（attention）——你得先留意到楷模的行為；保持（retention）——把看到的內容記在腦中；再生（reproduction）——具備重現該行為的能力；以及動機（motivation）——有理由去做。

這裡有個關鍵概念：替代增強（vicarious reinforcement）。在後續研究中，當兒童看到攻擊的大人「受到獎賞」，他們更傾向模仿；看到大人「被懲罰」，模仿就減少。但耐人尋味的是，即使看到楷模被懲罰、孩子自己不主動模仿，事後若給予誘因，他們仍能準確做出那些動作。這就回到本文開頭的定義：學習（習得）與表現（performance）是兩回事。孩子其實「學會了」，只是因為動機不足而沒「表現」出來。

重點回顧

古典制約讓原本中性的刺激（CS）借到另一刺激（UCS）的反應力，核心是「能否有效預測」，而非單純時間靠近；消弱後仍可能自發恢復。
操作制約由行為的後果塑造行為。先分「增強（變多）vs 懲罰（變少）」，再分「正（給予）vs 負（移除）」，四象限互不混淆；負增強不是懲罰。
增強時制影響行為強度，其中變動比率產生最高、最抗消弱的反應率，解釋了賭博與間歇性回饋的吸引力。
觀察學習證明新行為可僅靠觀看楷模習得，需經注意、保持、再生、動機四歷程；替代增強會調節模仿意願。
貫穿三者的重要區分是：習得（learning）不等於表現（performance）——學會了未必當下做出來。

深入探討（研究所視角）

進入研究所層次，學習心理學最重要的轉變，是從早期行為主義的「黑箱」立場，走向對內在歷程的開放。華生與史金納主張只研究可觀察的刺激與反應，刻意不談心智。但一連串現象迫使理論升級。

第一個裂縫來自生物制約的限制（biological constraints）。約翰．賈西亞（John Garcia）發現，老鼠能在「吃下某味道」與「數小時後的噁心」之間建立連結，即使兩者相隔甚遠、且只配對一次——這就是味覺嫌惡學習（taste aversion / Garcia effect），違反了「刺激必須時間靠近、需多次配對」的古典假設。更關鍵的是，老鼠很容易把噁心連到「味道」、卻幾乎無法連到「聲光」。這顯示有機體天生有所準備（preparedness），演化讓某些連結比其他連結更容易形成。學習律因此不是普世均質的，而是被物種的生態史所形塑。

第二個裂縫是潛在學習（latent learning）與認知地圖（cognitive map）。愛德華．托爾曼（Edward Tolman）讓老鼠在無食物獎勵下走迷宮，這些老鼠表面上沒進步；但一旦引入獎勵，牠們的表現立刻追上甚至超越全程受獎的老鼠。這證明牠們其實一直在學——只是沒表現出來，再次印證「習得 ≠ 表現」。托爾曼主張老鼠腦中形成了環境的「認知地圖」，這是行為主義純刺激—反應框架無法解釋的內在表徵，預示了認知革命。

第三條線索是神經與計算層次的整合。前述雷斯柯拉—華格納模型的「預測誤差」概念，在神經科學中找到了驚人的對應：沃夫朗．舒茲（Wolfram Schultz）的研究顯示，中腦多巴胺神經元的放電並非單純編碼「獎賞」，而是編碼獎賞預測誤差（reward prediction error）——當結果優於預期時放電增加，符合預期時無反應，劣於預期時放電下降。這把行為層次的學習律、心理層次的「驚訝度」與神經層次的多巴胺訊號縫合在一起，也正是電腦科學中時序差分學習（temporal difference learning）與當代強化學習（reinforcement learning）的理論基石。一條從巴夫洛夫的狗到 AlphaGo 的線索，由此清晰浮現。

最後，從教育與研究方法的角度看，這些原理並非彼此競爭，而是描述了學習的不同切面。古典制約解釋情緒與態度的習得，操作制約解釋技能與習慣的塑造，社會學習解釋文化與行為的傳遞。對研究者而言，理解班杜拉後來發展的自我效能（self-efficacy）理論，更能把觀察學習延伸到動機與自我調節學習（self-regulated learning）的當代議題——學習者不只是被環境塑造的對象，更是能觀察、詮釋、設定目標並主動調整的能動主體。這個從「被動受制約」到「主動建構」的視角轉移，正是學習科學持續前進的核心張力。

學習進階：預測誤差、多巴胺與記憶如何被改寫

--

4

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定