學習的科學:從巴夫洛夫的狗到你手機的提示音
古典制約、操作制約與觀察學習,如何在日常生活中悄悄塑造我們的行為
為什麼鈴聲一響,你就忍不住看手機?
想像一個畫面:你正專心讀書,手機在桌角輕輕「叮」了一聲。即使你還沒看到內容,心跳已經悄悄加速,手指不由自主地伸了過去。沒有人教你「聽到提示音就要拿手機」,但你卻學會了。這一連串幾乎反射式的反應,並不是天生寫進基因裡的,而是被「學習」一點一滴塑造出來的。
在心理學裡,「學習」(learning)有一個遠比日常用語精確的定義:因經驗而產生的、相對持久的行為或行為潛能改變。請注意這個定義的每個轉折。「因經驗」排除了單純成熟(maturation)或生病、疲勞造成的暫時變化;「相對持久」排除了喝咖啡後一時的亢奮;「行為潛能」則提醒我們,學習未必立刻表現出來——你可能學會了某件事,卻要等到適當情境才展現。
這篇文章將帶你走過學習心理學的三大支柱:古典制約(classical conditioning)、操作制約(operant conditioning),以及觀察學習(observational learning)。它們各自回答了一個不同的問題:我們如何把不相干的刺激連結起來?我們如何透過後果調整行為?我們又如何僅僅靠「看別人做」就學會新事物?

古典制約:兩件事被綁在一起
故事要從一位俄國生理學家說起。伊凡.巴夫洛夫(Ivan Pavlov)原本研究的是狗的消化系統,他想測量狗看到食物時分泌多少唾液。但他注意到一個「干擾」:實驗進行一段時間後,狗在食物還沒端上來、只是聽到實驗助理的腳步聲時,就開始流口水了。對嚴謹的生理學家來說這是雜訊,但巴夫洛夫卻意識到,這裡藏著學習的祕密。
他設計了著名的實驗。食物本身會自然引發唾液分泌,這是不需要學習的反射,因此食物稱為非制約刺激(unconditioned stimulus, UCS),所引發的唾液是非制約反應(unconditioned response, UCR)。鈴聲原本對狗毫無意義,是個中性刺激(neutral stimulus)。巴夫洛夫反覆讓鈴聲緊接著食物出現,經過多次配對之後,奇妙的事發生了:單獨響鈴,狗也會流口水。此時鈴聲成了制約刺激(conditioned stimulus, CS),所引發的唾液則是制約反應(conditioned response, CR)。
古典制約的核心,是讓一個原本中性的刺激「借」到另一個刺激本來就有的反應力。回到開頭的例子:手機提示音原本是中性的,但它一次又一次伴隨著訊息、按讚、社群回饋(這些才是真正讓人愉悅的非制約刺激),久了之後,光是提示音就能讓你心跳加速、注意力被攫取。
看一個例子:小艾伯特實驗
古典制約不只作用於唾液這類生理反射,也能塑造情緒。1920 年,約翰.華生(John B. Watson)與蘿莎莉.雷納(Rosalie Rayner)進行了心理學史上著名(也具爭議)的「小艾伯特實驗」。他們讓一名約十一個月大的嬰兒接觸一隻白鼠,孩子原本並不害怕,會伸手去摸。接著,每當白鼠出現,研究者就在他背後猛敲鐵棒發出巨響——巨響是天生會引發驚嚇與哭泣的非制約刺激。幾次配對後,小艾伯特只要看到白鼠就驚恐大哭。
更值得注意的是,他的恐懼還類化(generalization)到了其他毛茸茸的東西:兔子、毛皮大衣,甚至聖誕老人面具。這顯示制約反應會擴散到與制約刺激相似的刺激上。與類化相對的是辨別(discrimination)——若只有特定的鈴聲伴隨食物、其他音高從不伴隨,狗最終會學會只對那個特定鈴聲反應。
這個實驗以今日的研究倫理標準絕不會被允許(孩子的恐懼未被消除、且缺乏知情同意),但它清楚示範了:許多非理性的恐懼與情緒反應,可能正是古典制約的產物。
消弱、自發恢復與「預測」的本質
如果制約刺激不斷出現、卻不再伴隨非制約刺激會怎樣?鈴聲響了又響,卻再也沒有食物,狗的唾液反應會逐漸減弱,最終幾乎消失,這稱為消弱(extinction)。但消弱並不是把學到的東西「抹除」。休息一段時間後,再次響鈴,往往又會引發微弱的唾液——這叫自發恢復(spontaneous recovery)。這個現象告訴我們,原本的連結並未真正刪除,只是被一層新的「鈴聲不再預測食物」的學習壓了下去。
這帶出一個現代觀點的重要修正。早期認為古典制約只要「刺激在時間上靠近」就會發生,但羅伯特.雷斯柯拉(Robert Rescorla)的研究改變了這個看法。他指出,關鍵不在於兩個刺激是否「同時出現」,而在於制約刺激是否能有效預測非制約刺激。如果鈴聲總是先於食物,鈴聲才有預測價值;如果食物在有鈴聲、沒鈴聲時出現的機率一樣高,鈴聲就學不起來。雷斯柯拉—華格納模型(Rescorla-Wagner model)用「預期誤差」(surprise)來量化學習:唯有當結果出乎預料時,連結才會更新。這個「預測誤差驅動學習」的洞見,後來深刻影響了人工智慧中的強化學習演算法。
操作制約:行為的後果會回過頭來塑造行為
古典制約處理的是「不由自主」的反應,但我們大量的行為其實是「主動操作環境」的——舉手發言、按下按鈕、努力念書。這類行為由它們帶來的後果所塑造,這就是操作制約(operant conditioning)的領域。
愛德華.桑代克(Edward Thorndike)最早用「迷籠」研究這件事。他把貓關進需要壓桿才能逃出的籠子,記錄牠每次脫困所花的時間。一開始貓只是亂抓亂撞,偶然壓到機關才出來;但隨著嘗試次數增加,脫困時間越來越短。桑代克據此提出效果律(law of effect):帶來滿意結果的行為,日後在相同情境更可能重複;帶來不快結果的行為,則越來越少出現。
伯爾赫斯.史金納(B. F. Skinner)將這套思路系統化,並發明了「史金納箱」做精密測量。他提出區分兩種後果的關鍵架構,初學者最常在這裡混淆,請務必看清楚兩個維度:
- 增強(reinforcement)讓行為增加,懲罰(punishment)讓行為減少。
- 「正」(positive)指「給予某刺激」,「負」(negative)指「移除某刺激」——這裡的正負不是好壞,而是加減。
把兩個維度交叉,得到四種情況:
- 正增強:做出行為後給予愉快刺激(答對得到讚美),行為增加。
- 負增強:做出行為後移除厭惡刺激(繫安全帶後刺耳警示音停止),行為增加。
- 正懲罰:做出行為後給予厭惡刺激(觸碰熱爐被燙),行為減少。
- 負懲罰:做出行為後移除愉快刺激(違規被沒收手機),行為減少。
最常見的迷思,是把「負增強」當成懲罰。請記住:只要是增強,目的就是讓行為變多;負增強之所以叫「負」,是因為它靠「拿走討厭的東西」來達成。
動手試試:辨認你生活中的四種後果
試著把下面幾個情境對號入座,再核對答案:
- 你準時交作業,老師當眾稱讚你。
- 你戴上耳塞,惱人的工地噪音消失了,於是你下次更會主動戴耳塞。
- 弟弟亂丟玩具,被罰當天不能看影片。
- 你上班遲到,被主管嚴厲斥責。
答案:(1) 正增強——給予讚美使「準時」增加;(2) 負增強——移除噪音使「戴耳塞」增加;(3) 負懲罰——移除看影片的權利使「亂丟」減少;(4) 正懲罰——給予斥責使「遲到」減少。判斷訣竅是分兩步走:先問「這個後果讓行為變多還是變少」(增強 vs 懲罰),再問「是加了東西還是拿走東西」(正 vs 負)。
增強時制:為什麼吃角子老虎讓人欲罷不能
光知道「增強」還不夠,何時、以什麼節奏給予增強,會深刻影響行為的強度與持久度。史金納比較了幾種增強時制(schedules of reinforcement):
- 固定比率(fixed ratio):每做滿固定次數就增強一次(例如計件工資,每組裝十件給一次獎金)。
- 變動比率(variable ratio):平均每若干次增強,但確切次數不可預測。吃角子老虎、社群媒體的點讚,都是這一型。
- 固定間隔(fixed interval):固定時間過後的第一個反應才被增強(例如每週固定發薪)。
- 變動間隔(variable interval):以不可預測的時間間隔給予增強(例如不知何時會被主管巡視)。
研究發現,變動比率時制產生最高、最穩定、也最難消弱的反應率。原因在於:既然「下一次就可能中獎」,停手就太可惜了。這正是賭博之所以容易成癮的行為機制。理解這一點,也讓我們對「間歇性回饋」如何牢牢抓住注意力,有了科學的解釋。
操作制約還有一個威力強大的技術:塑造(shaping)。當目標行為太複雜、不可能憑空一次出現時,可以先增強「接近目標的近似行為」,再逐步提高標準。訓練海豚跳火圈、教孩子寫字,都是靠一步步逼近完成的。
觀察學習:不必親自嘗試,看別人就能學會
到目前為止,兩種制約都假設個體必須親身經歷刺激或後果。但人類顯然不是這樣學習的——你不必親手碰過火,光看別人被燙到縮手,就學會了避開。亞伯特.班杜拉(Albert Bandura)用一系列研究,把「觀察學習」(observational learning,又稱社會學習)推上了舞台。
在著名的波波玩偶實驗(Bobo doll experiment)中,班杜拉讓一群兒童觀看大人對著一個充氣玩偶又打又踢、還口出攻擊言語;另一組兒童則看到大人安靜地玩。之後把孩子單獨留在有波波玩偶的房間裡,結果看過攻擊示範的兒童,明顯更會模仿那些攻擊動作,甚至創造出新的攻擊方式。這證明了:新行為可以僅透過觀察他人(楷模,model)而習得,不需要自己親身被增強。
班杜拉進一步指出,觀察學習要發生,需要四個歷程:注意(attention)——你得先留意到楷模的行為;保持(retention)——把看到的內容記在腦中;再生(reproduction)——具備重現該行為的能力;以及動機(motivation)——有理由去做。
這裡有個關鍵概念:替代增強(vicarious reinforcement)。在後續研究中,當兒童看到攻擊的大人「受到獎賞」,他們更傾向模仿;看到大人「被懲罰」,模仿就減少。但耐人尋味的是,即使看到楷模被懲罰、孩子自己不主動模仿,事後若給予誘因,他們仍能準確做出那些動作。這就回到本文開頭的定義:學習(習得)與表現(performance)是兩回事。孩子其實「學會了」,只是因為動機不足而沒「表現」出來。
重點回顧
- 古典制約讓原本中性的刺激(CS)借到另一刺激(UCS)的反應力,核心是「能否有效預測」,而非單純時間靠近;消弱後仍可能自發恢復。
- 操作制約由行為的後果塑造行為。先分「增強(變多)vs 懲罰(變少)」,再分「正(給予)vs 負(移除)」,四象限互不混淆;負增強不是懲罰。
- 增強時制影響行為強度,其中變動比率產生最高、最抗消弱的反應率,解釋了賭博與間歇性回饋的吸引力。
- 觀察學習證明新行為可僅靠觀看楷模習得,需經注意、保持、再生、動機四歷程;替代增強會調節模仿意願。
- 貫穿三者的重要區分是:習得(learning)不等於表現(performance)——學會了未必當下做出來。
深入探討(研究所視角)
進入研究所層次,學習心理學最重要的轉變,是從早期行為主義的「黑箱」立場,走向對內在歷程的開放。華生與史金納主張只研究可觀察的刺激與反應,刻意不談心智。但一連串現象迫使理論升級。
第一個裂縫來自生物制約的限制(biological constraints)。約翰.賈西亞(John Garcia)發現,老鼠能在「吃下某味道」與「數小時後的噁心」之間建立連結,即使兩者相隔甚遠、且只配對一次——這就是味覺嫌惡學習(taste aversion / Garcia effect),違反了「刺激必須時間靠近、需多次配對」的古典假設。更關鍵的是,老鼠很容易把噁心連到「味道」、卻幾乎無法連到「聲光」。這顯示有機體天生有所準備(preparedness),演化讓某些連結比其他連結更容易形成。學習律因此不是普世均質的,而是被物種的生態史所形塑。
第二個裂縫是潛在學習(latent learning)與認知地圖(cognitive map)。愛德華.托爾曼(Edward Tolman)讓老鼠在無食物獎勵下走迷宮,這些老鼠表面上沒進步;但一旦引入獎勵,牠們的表現立刻追上甚至超越全程受獎的老鼠。這證明牠們其實一直在學——只是沒表現出來,再次印證「習得 ≠ 表現」。托爾曼主張老鼠腦中形成了環境的「認知地圖」,這是行為主義純刺激—反應框架無法解釋的內在表徵,預示了認知革命。
第三條線索是神經與計算層次的整合。前述雷斯柯拉—華格納模型的「預測誤差」概念,在神經科學中找到了驚人的對應:沃夫朗.舒茲(Wolfram Schultz)的研究顯示,中腦多巴胺神經元的放電並非單純編碼「獎賞」,而是編碼獎賞預測誤差(reward prediction error)——當結果優於預期時放電增加,符合預期時無反應,劣於預期時放電下降。這把行為層次的學習律、心理層次的「驚訝度」與神經層次的多巴胺訊號縫合在一起,也正是電腦科學中時序差分學習(temporal difference learning)與當代強化學習(reinforcement learning)的理論基石。一條從巴夫洛夫的狗到 AlphaGo 的線索,由此清晰浮現。
最後,從教育與研究方法的角度看,這些原理並非彼此競爭,而是描述了學習的不同切面。古典制約解釋情緒與態度的習得,操作制約解釋技能與習慣的塑造,社會學習解釋文化與行為的傳遞。對研究者而言,理解班杜拉後來發展的自我效能(self-efficacy)理論,更能把觀察學習延伸到動機與自我調節學習(self-regulated learning)的當代議題——學習者不只是被環境塑造的對象,更是能觀察、詮釋、設定目標並主動調整的能動主體。這個從「被動受制約」到「主動建構」的視角轉移,正是學習科學持續前進的核心張力。