g 因素藏在哪個認知零件裡？智力的因素結構、認知化約與基因組學

當你已經知道 g 是因素分析萃取的統計構念，下一步該問：它由什麼認知歷程組成？高階模型與雙因素模型、工作記憶與反應時間變異性、測量恆等性與 IRT、再到多基因分數，帶你把智力從「一個分數」變成「一個可被機制檢驗的科學對象」。

進階 · 約 15 分鐘 ·#智力#心理計量#因素分析#工作記憶#行為遺傳學#試題反應理論

如果 g 真的存在，它到底「藏」在哪一個認知零件裡？

你已經知道：各種認知測驗彼此正相關，於是因素分析（factor analysis）萃取出一個叫 g 的共同因素。但這個答案其實只是把問題往後推了一步。一個更尖銳的問題立刻浮現：g 到底由什麼基本認知歷程構成？ 當你坐在魏氏量表前解一道矩陣推理題，大腦裡哪一個「零件」在決定你的成績——是你能同時記住多少訊息？是你神經傳導有多快？還是你能多有效地壓抑無關干擾？

入門篇把 g 當成一個統計起點。這篇進階文章要做的，是把這個黑盒子拆開：我們要進入因素模型的內部結構（g 該被畫成金字塔頂端還是貫穿全身的軸線？）、g 的認知化約（它能不能被還原成工作記憶與處理速度？）、測量恆等性與試題反應理論（跨群體比分數的技術前提），最後一路推進到基因組學如何重寫遺傳率的意義。這些是把智力從「一個分數」變成「一個可被機制檢驗的科學對象」的關鍵環節。

智力進階概念示意圖

高階因素 vs 雙因素：同一份資料，兩種世界觀

入門篇給你的 CHC 三層金字塔，在統計上其實對應一種特定模型，叫做高階因素模型（higher-order model）。在這個模型裡，g 站在頂端，它透過中層的廣域能力（如流體智力 Gf、晶體智力 Gc）間接影響各個分測驗。也就是說，g 對你某一道題目的影響，全部都「流經」廣域能力這個中介。

但同一份相關資料，還可以用另一種結構去解釋，叫做雙因素模型（bifactor model）。在這裡，g 不再高高在上，而是直接作用於每一個分測驗；同時，每個廣域能力變成與 g 正交（互相獨立）的「群因素」（group factor），只負責解釋扣掉 g 之後剩下的那部分共變。

這個差異聽起來抽象，後果卻很實在：

在高階模型裡，「Gf 等於 g」幾乎成立——許多研究發現流體智力與 g 的相關高到接近 1，於是有人主張 Gf 根本就是 g 的化身。
在雙因素模型裡，你可以把「純粹的 g」與「扣除 g 之後的特定能力」清楚切開，去問一個更精緻的問題：一份測驗的預測力，到底有多少來自 g，又有多少來自它獨有的特定能力？

研究發現一個發人深省的結果：當你用雙因素模型把 g 抽出來後，很多分測驗的「特定能力」對真實世界結果（如學業、工作表現）的額外預測力會大幅縮水。換句話說，這些測驗之所以有用，主要是因為它們都在偷偷測量同一個 g。這對「多元智能」一類主張是個沉重的挑戰：你以為你在分別測量八種獨立才能，模型卻告訴你它們共享了一個巨大的共同核心。

要提醒的是：雙因素模型在統計上容易過度配適（它參數多、彈性大，常常「看起來」配適得更好），近年方法學界對盲目偏好它有不少警告。模型的選擇不該只看配適指標，更要看它在理論上是否站得住腳。這正是智力研究迷人的地方——統計模型不是中立的描述，它本身就是一種對「智力是什麼」的主張。

把 g 拆成零件：工作記憶、處理速度與反應時間

如果 g 是個統計構念，那它能不能被「化約」成更基本、更接近大腦運作的認知歷程？這是過去三十年認知心理學最重要的攻堅方向之一。

工作記憶（working memory） 是頭號嫌疑犯。康威（Andrew Conway）、恩格爾（Randall Engle）等人的大量研究顯示，工作記憶容量——特別是其中的注意力控制成分（在干擾下維持目標訊息的能力）——與流體智力的相關高得驚人，潛在變項層次的相關常落在 0.7 到 0.9 之間。有些研究者一度主張兩者根本是同一回事。後續更細緻的分析則認為，兩者高度重疊但不完全等同：工作記憶解釋了流體智力很大一部分，但不是全部。

處理速度（processing speed） 是另一條線索。傑森（Arthur Jensen）長年研究一個看似平淡的現象：反應時間（reaction time, RT）與 IQ 的負相關——IQ 越高的人，在最簡單的「燈亮就按鍵」作業上反應越快。更有意思的是「赫氏定律」（Hick's law）情境下的發現：當選項變多、作業變難，高 IQ 與低 IQ 者的反應時間差距會拉大。

但這裡有一個比平均反應時間更深刻的指標：反應時間的變異性（intra-individual variability, IIV），也就是「你每一次反應快慢的不穩定程度」。研究發現，反應時間的標準差，往往比平均反應時間更能預測 g。為什麼？一個有力的解釋是「神經雜訊假說」：高智力可能對應於更穩定、訊號雜訊比更高的神經處理——不是每次都更快，而是更少出現那種反應特別慢的「失神時刻」（lapses of attention）。這把智力從「速度」重新框定為「處理的一致性與可靠性」，是個漂亮的觀念轉折。

看一個例子：為什麼「偶爾很慢」比「平均很快」更說明問題

假設有兩位同學做同一份簡單反應作業，各做 100 次（單位：毫秒）：

小安：每次都落在 280 到 320 之間，平均約 300。
小宇：大多數時候 250 到 270，飛快；但每隔一陣子會冒出一次 600 甚至 800 的超慢反應，平均算下來也約 300。

兩人平均反應時間幾乎一樣，但他們的標準差天差地遠。神經雜訊假說預測：小安那種「穩定」的剖面，往往對應更高的 g；小宇那些偶發的超慢反應，反映的正是注意力控制偶爾「斷線」——而這種斷線頻率，恰恰是流體智力個別差異的核心來源之一。

這個例子的教學重點是：描述一個人的認知能力時，只看平均數會漏掉最關鍵的訊息。 分布的形狀（尤其是慢速尾端）常常才是金礦。下次你分析任何反應時間資料，別只算 mean——畫出整個分布，看看那條右側的長尾。

為什麼「跨群體比 IQ」在技術上這麼危險：測量恆等性

入門篇提過文化偏誤與刻板印象威脅，那是現象層面的公平性問題。進階篇要給你的是它的技術核心：測量恆等性（measurement invariance）。

想像你要比較甲、乙兩個群體（不同文化、語言、世代或性別）的智力分數。在你能合法地說「甲群體平均比乙群體高」之前，必須先回答一個前提問題：這份測驗在兩個群體身上，測到的是不是同一個構念、用的是不是同一把尺？ 這就是恆等性檢驗，通常分幾個層級逐步檢查：

形貌恆等（configural invariance）：兩群體的因素結構長得一樣嗎？（同樣是 g 加上同樣那幾個廣域能力？）
計量恆等（metric invariance）：每道題對潛在構念的「載荷量」一樣嗎？（同一題在兩群體中，對 g 的指示強度相同？）
純量恆等（scalar invariance）：每道題的「截距」一樣嗎？這一層最關鍵——唯有純量恆等成立，跨群體比較平均分數才有意義。

如果純量恆等不成立，卻硬要比較兩群體的平均 IQ，那就是 CLAUDE.md 裡那句話的精確含意：在比較蘋果與橘子。某道題可能對甲群體偏易、對乙群體偏難（例如題目用了某個文化專有的詞），這種「試題功能差異」（differential item functioning, DIF）會系統性地汙染群體比較，而它完全可能藏在一份「信度很高」的測驗裡。

這就是為什麼負責任的智力研究者，對任何「某群體比某群體聰明」的宣稱會極度謹慎——不是出於政治正確，而是因為多數這類宣稱根本沒先通過恆等性這一關，在方法學上就站不住腳。

試題反應理論：從「答對幾題」到「你在能力軸上的位置」

要真正理解現代智力測量，你需要認識試題反應理論（item response theory, IRT），它是當代測驗（含許多大型 IQ 與教育評量）的計量骨幹，也是離差智商背後更精密的引擎。

古典測驗理論（classical test theory）關心的是「總分」，但總分有個尷尬：答對 10 題簡單題和答對 10 題困難題，分數一樣，能力卻明顯不同。IRT 換了一套思路——它同時為「人的能力」與「題的難度」建立參數，放在同一條潛在量尺上。

最常見的形式是把每道題畫成一條 S 形的「試題特徵曲線」（item characteristic curve）：橫軸是受測者的潛在能力 θ（theta），縱軸是答對該題的機率。一道題由幾個參數刻畫：

難度（b 參數）：曲線往右移多少——這道題要多高的能力才有五成把握答對。
鑑別度（a 參數）：曲線多陡——這道題區分高低能力者的效率。陡的題，能力稍高一點答對率就明顯跳升。
（三參數模型還會加上猜測度 c，描述能力極低者靠瞎猜也能答對的下限。）

IRT 帶來幾個古典理論做不到的能力：它能算出每道題在能力軸不同位置的「訊息量」，從而設計出電腦適性測驗（computerized adaptive testing, CAT）——你答對就出更難的題、答錯就出更簡單的題，系統動態逼近你的真實能力，用更少題目達到更高精度。前面講的 DIF 檢測，技術上也正是建立在 IRT 之上：它檢查的是「在控制了潛在能力 θ 相同之後，兩群體答對同一題的機率是否仍有差異」。

理解 IRT，你才會明白為什麼「IQ 分數」不只是「答對題數換算」那麼簡單——它背後是一整套關於「能力」與「試題」如何在同一量尺上對話的精密理論。

從遺傳率到多基因分數：分子時代的智力遺傳學

入門篇用雙生子研究談了遺傳率，並且正確地警告「遺傳率是群體統計量、不是個人命運」。進階篇要帶你看這個領域在分子生物學時代發生的革命，以及它如何讓那個警告變得更加重要。

過去的雙生子研究只能告訴你「基因整體上解釋了多少變異」，卻指不出是哪些基因。全基因組關聯研究（genome-wide association study, GWAS）改變了這一切：研究者掃描數十萬至數百萬人的基因組，尋找與認知能力或教育程度相關的單核苷酸多型性（SNP）。

結果揭示了智力遺傳結構的真相——極度多基因（highly polygenic）。沒有所謂的「聰明基因」；相反，認知能力受到成千上萬個微效基因共同影響，每一個的效果都小到幾乎可以忽略。把這些微小效果加總起來，可以算出一個人的多基因分數（polygenic score, PGS）。

但這裡有四個必須牢記的限制，它們讓「基因決定論」的天真版本徹底破產：

預測力仍然有限。 目前最好的教育/認知多基因分數，在獨立樣本中也只能解釋個位數到約一成多的變異。它在群體層次有研究價值，用在個人身上幾乎沒有實用預測力。
「缺失的遺傳率」。 GWAS 抓到的遺傳效果，加總後仍遠低於雙生子研究估計的遺傳率，這個落差至今未被完全解釋。
相關不等於因果機制。 與認知相關的 SNP，很多其實透過「基因—環境相關」起作用（例如某些基因傾向讓人選擇更多刺激的環境），而非直接「製造聰明的大腦」。
跨族群不可移植。 多基因分數主要建立在歐洲血統樣本上，套用到其他族群時預測力會大幅下降——這既是科學限制，也是倫理警訊：誤用會放大既有的不平等。

把這四點合起來，現代基因組學給出的訊息，恰恰強化了入門篇的結論：高遺傳率與「可改變、不可貼標籤」完全相容。我們現在比以往任何時候都更清楚——沒有一條基因捷徑能告訴你一個人會有多聰明。

重點回顧

g 的因素結構不是唯一的：高階模型把 g 放在金字塔頂端，雙因素模型則讓 g 直接貫穿所有測驗。選哪個模型本身就是一種理論主張；雙因素抽出 g 後，許多「特定能力」的獨立預測力會縮水。
g 可被部分化約為認知零件：工作記憶（尤其注意力控制）與流體智力高度重疊；而反應時間的變異性常比平均反應時間更能預測 g，指向「神經處理的一致性」而非單純的速度。
跨群體比較分數的技術前提是測量恆等性：唯有達到純量恆等，比較平均 IQ 才合法；否則就是在比蘋果與橘子，試題功能差異（DIF）會系統性汙染結論。
IRT 是現代測量的骨幹：它把人的能力與題的難度放在同一量尺上，支撐了電腦適性測驗與 DIF 檢測，遠比「答對幾題」精密。
智力是極度多基因的：沒有「聰明基因」，多基因分數對個人預測力有限、有缺失遺傳率與跨族群不可移植等問題——分子證據反而強化了「不可貼標籤」的結論。

深入探討（研究所視角）

把上面這些線索收束起來，研究前沿有幾個彼此咬合的張力值得繼續追問。

化約論的天花板：g 能被完全溶解嗎？ 把 g 還原成工作記憶與處理速度，是一個誘人的研究綱領，但它面臨一個概念困境：如果工作記憶本身又是個多面向構念、而它與 Gf 的高相關有部分來自共享的方法變異（兩者都用類似的「在干擾下解題」作業測量），那麼「Gf 約等於工作記憶」會不會只是測量上的同義反覆，而非實質的機制化約？這需要更乾淨的實驗分離（例如以不同作業範式、甚至神經指標來三角驗證），是工作記憶—智力文獻持續爭論的核心。

互利論與網絡取向對「潛在變項」本體論的衝擊。 入門篇提到的互利論（mutualism）若成立，g 是發展過程中能力互相促進的湧現結果而非先存原因，那麼把 g 模型化成一個「潛在共同因」就在本體論上犯了錯。順著這條路，近年興起的心理計量網絡分析（psychometric network analysis）乾脆放棄潛在變項，把各認知能力視為一張互相影響的節點網絡，用網絡中心性等指標重新詮釋「正向流形」。這代表測量哲學的一次典範競爭：智力究竟是「一個躲在背後的因」，還是「一群互動歷程的系統性質」？兩種模型可能對同一份資料給出相近配適，卻指向截然不同的介入策略。

因果推論的新工具與其陷阱。 基因組時代帶來了孟德爾隨機化（Mendelian randomization）這類工具，試圖用基因變項當作「自然實驗」來推論「認知能力是否因果地影響健康、壽命、所得」。它很有力，但對「水平多效性」（一個基因同時影響多條路徑）與群體分層極為敏感，結論需要審慎。同時，基因—環境交互作用（如 Scarr-Rowe 假說：在資源匱乏環境中智力遺傳率被壓低）若為真，意味著遺傳率根本不是一個固定常數，而是環境的函數——這直接動搖了任何「把遺傳率當成命運係數」的解讀。

跨領域的開放問題。 在認知老化研究中，流體與晶體智力的分流軌跡，正被用來建立失智前驅期的早期偵測模型；在教育與勞動經濟學，多基因分數帶來的不只是預測，更是棘手的倫理問題——當「基因稟賦」可被部分量化，社會該如何避免它被誤用為新形式的決定論？而在生成式 AI 的衝擊下，一個更根本的問題浮現：當大型語言模型能輕鬆通過許多傳統「高 g」作業（語文推理、類比、矩陣題），我們對 g 的整套效度論證——「它預測真實世界成就」——是否需要重新檢視？機器在這些測驗上的高分，反過來逼我們追問：這些測驗測到的，究竟是某種普遍的智能，還是只是某類可被統計模式擬合的規律性？

對研究者而言，這一系列問題最終都指向同一個謙遜的領悟：智力研究的成熟，不在於找到 g 的「真身」，而在於學會在統計模型、認知機制、遺傳結構與社會脈絡四個層次之間反覆校準，並且時時記得——我們手上每一個漂亮的數字，都同時是一項科學發現，也是一個有待批判的建構。

← 上一篇

為什麼有人數學差卻很會看人臉色？智力的理論、測量與爭議

--

3

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定