為什麼有人數學差卻很會看人臉色？智力的理論、測量與爭議

從 g 因素到弗林效應，看穿智商分數背後的科學與迷思

大學入門至進階 · 約 15 分鐘 ·#智力#g因素#IQ測驗#流體與晶體智力#弗林效應#心理計量

為什麼有人數學差卻很會看人臉色？

請先想一個問題：你身邊那位心算飛快、考試名列前茅的同學，跟那位記不住公式、卻能在三秒內讀懂全場氣氛、把社團活動辦得有聲有色的朋友——誰比較「聰明」？

多數人會猶豫。因為我們心裡其實藏著兩種互相矛盾的直覺：一方面相信「聰明」是某種貫穿一切的單一能力（成績好的人「就是比較行」）；另一方面又清楚看到，會解微積分的人不見得會修水電、會做生意、會安慰失戀的朋友。智力（intelligence）這個概念之所以迷人又棘手，正是因為它同時承載了這兩種直覺，而百年來的心理學研究，幾乎都是在這兩極之間反覆拉鋸。

這篇文章帶你看清楚：智力到底是「一種」還是「很多種」？我們用什麼工具去測量它？而圍繞著智力測驗的那些激烈爭議，又為什麼到今天都還沒落幕。

智力概念示意圖

一切的起點：那個叫做 g 的東西

智力研究的真正起點，是英國心理學家斯皮爾曼（Charles Spearman）在 1904 年的一個觀察。他發現一件奇怪的事：在各式各樣看似無關的測驗中——語文、數學、感官辨別、記憶——一個人在某項表現好，往往在其他項也表現好。這些分數之間存在著一致的「正相關」（positive correlation）。

斯皮爾曼認為，這背後一定有一個共同的東西在驅動所有表現，他稱之為一般智力因素，也就是著名的 g 因素（general intelligence factor，簡稱 g）。在他的「雙因素理論」（two-factor theory）裡，每一項測驗成績都由兩部分組成：共通的 g，加上該項目專屬的特殊能力 s。

這個「各種認知測驗彼此正相關」的現象，後來被稱為「正向流形」（positive manifold），是智力研究中最穩固、最常被重複驗證的實證事實之一。你幾乎找不到一份設計合理的認知測驗，會跟其他認知測驗呈現顯著負相關。g 因素的統計威力也很驚人：它與學業成就、職業表現、甚至健康與壽命都有可觀的相關。

但請注意一個關鍵的方法學陷阱：g 是透過因素分析（factor analysis）這種統計技術「萃取」出來的數學構念，它不是大腦裡某個具體的器官或開關。g 描述了相關性的結構，卻沒有直接告訴我們它的生理機制是什麼。把統計因素誤當成實體存在，正是後續許多爭議的根源。

不只一種：智力的層級與類型

斯皮爾曼之後，研究者開始質疑：把一切壓縮成單一的 g，是不是丟失了太多訊息？

瑟斯頓（Louis Thurstone）在 1930 年代主張智力是由數個彼此獨立的基本心智能力（primary mental abilities）組成，例如語文理解、空間能力、數字運算、記憶、推理等。然而後續分析發現，這些「獨立」能力其實彼此仍有正相關——g 又從後門溜了回來。

真正調和兩派的，是卡特爾－霍恩－卡羅爾理論（Cattell-Horn-Carroll theory，簡稱 CHC 理論），這也是當代智力測驗最主流的架構。它把智力看成一個三層的金字塔：

頂層：g（一般智力）
中層：約八到十個廣域能力（broad abilities）
底層：數十種狹義的特定能力

其中最重要的中層區分，來自卡特爾（Raymond Cattell）提出的兩個概念：

流體智力（fluid intelligence，Gf）：解決新奇問題、進行抽象推理的能力，不依賴既有知識。像是看一組陌生圖形、推測下一個該是什麼。它在青年期達到高峰後會隨年齡逐漸下降。
晶體智力（crystallized intelligence，Gc）：透過經驗與教育累積的知識與技能，例如字彙量、常識、專業判斷。它可以維持甚至持續增長到中老年。

這個區分非常重要，因為它解釋了一個生活現象：年長者反應速度（流體）可能不如年輕人，但累積的智慧與知識（晶體）卻可能更豐厚。「老」與「智」不必然衝突。

那「會看人臉色」算不算智力？

回到開頭的問題。傳統 g 理論幾乎不處理人際與情緒能力，於是出現了試圖「擴大智力疆界」的理論。

最廣為人知的是迦納（Howard Gardner）的多元智能理論（theory of multiple intelligences，1983）。他主張人類至少有八種相對獨立的智能：語文、邏輯數學、空間、音樂、肢體動覺、人際、內省、自然觀察。這個理論在教育界極受歡迎，因為它尊重每個學生不同的長處。

不過要誠實地告訴你：多元智能理論在主流心理計量學界爭議很大。批評者指出，這些「智能」缺乏嚴謹的測量工具與實證支持，而且當你真的去測量它們時，許多項目之間仍然彼此正相關（g 又出現了）。它更像是一個有教育啟發性的框架，而非通過嚴格驗證的科學理論。對待它的恰當態度是：欣賞其教育價值，但不要把它當成已被證實的事實。

另一個影響深遠的是史登堡（Robert Sternberg）的三元智力論（triarchic theory），區分分析智力（應試）、創造智力（產生新點子）與實用智力（街頭智慧、解決真實生活問題）。它提醒我們：考試考得好，不等於人生過得好。

至於「情緒智力」（emotional intelligence，EI），由薩洛維（Peter Salovey）與梅爾（John Mayer）提出、後經高曼（Daniel Goleman）暢銷書推廣。學術上，以能力為基礎測量的情緒智力確實能預測部分社會適應；但市面上許多「EQ 測驗」其實混入了人格特質，科學嚴謹度參差不齊。看待 EI，請記得區分「嚴謹的能力模型」與「流行的自評問卷」。

怎麼測量智力？從比奈到離差智商

智力測驗的歷史，本身就是一段值得理解的故事。

1905 年，法國心理學家比奈（Alfred Binet）與西蒙（Théodore Simon）受政府委託，設計工具來辨識需要額外協助的學童。請特別記住比奈的初衷：他設計測驗是為了幫助孩子得到支援，而且他明確反對把測驗分數當成固定不變的「天生智力標籤」。

後來才有了「智商」（intelligence quotient，IQ）的概念。早期的「比率智商」公式是：

IQ ＝（心理年齡 ÷ 實際年齡）× 100

但這個公式對成人毫無意義（難道 40 歲的心理年齡要除以實際年齡？）。所以現代智力測驗（如魏氏智力量表 WAIS、WISC）改用離差智商（deviation IQ）：把你的分數拿來跟「同齡常模樣本」比較，看你落在常態分布的哪個位置。

這帶出智力測驗的兩個核心心理計量學概念，也是評估任何測驗品質的基本功：

信度（reliability）：測驗是否穩定一致？同一個人重複測，分數應該接近。
效度（validity）：測驗是否真的測到它宣稱要測的東西？分數能否預測它該預測的結果（如學業、工作表現）？

一份分數高但效度可疑的測驗，跟一把刻度精準卻量錯對象的尺沒兩樣。

看一個例子：常態分布與標準差

現代 IQ 分數被設計成符合常態分布（normal distribution，即鐘形曲線），平均數設為 100，標準差（standard deviation）設為 15。

這意味著什麼？根據常態分布的性質：

約 68% 的人 IQ 落在 85 到 115 之間（平均數上下一個標準差）。
約 95% 的人落在 70 到 130 之間（上下兩個標準差）。
IQ 130 以上（常被當作資優門檻）約佔人口 2%；IQ 70 以下約佔 2%。

所以當有人說自己「IQ 130」，這句話本身沒有絕對意義——它的意義完全來自「跟同齡人比較」。IQ 是相對位置，不是像身高那樣的絕對量。理解這一點，能幫你看穿很多對智商分數的過度解讀。

智力會變嗎？基因、環境與弗林效應

智力是天生注定，還是後天可塑？這是最敏感、也最容易被誤解的問題。

行為遺傳學（behavioral genetics）的雙生子研究（twin studies）顯示，智力的遺傳率（heritability）相當高，成年後估計約在 0.5 到 0.8 之間。但這裡有三個極易被誤解的觀念，請務必弄清楚：

第一，遺傳率是群體統計量，不是個人命運。「遺傳率 0.7」描述的是「在某個特定族群、特定環境條件下，個體間智力差異有多少比例與基因差異有關」，它完全不能用來說某個人的智力有 70% 來自基因。

第二，遺傳率會隨環境改變。在資源匱乏、環境差異極大的族群中，環境的影響力會被放大，遺傳率反而下降。換句話說，遺傳率高低本身就反映了環境條件。

第三，高遺傳率不代表不可改變。身高遺傳率很高，但充足營養仍能讓整個世代長高。智力也是。

最有力的證據就是弗林效應（Flynn effect）：紐西蘭學者弗林（James Flynn）發現，整個二十世紀，世界各國的平均 IQ 原始分數持續上升，每十年約增加數個百分點。短短幾十年，基因庫不可能改變，所以這必然反映環境因素——營養改善、教育普及、生活中抽象思考需求增加等。弗林效應雄辯地證明：智力測驗分數深受環境形塑。（值得一提的是，近年部分發達國家觀察到弗林效應趨緩甚至逆轉，原因仍在研究中。）

動手試試：拆解一句話裡的迷思

下次你聽到有人說「智力 70% 是天生的，所以後天努力沒用」，試著用上面三點拆解它：

70% 是群體遺傳率，不是「你個人有 70% 注定」——這是把群體統計誤用到個人。
這個數字本身取決於樣本所處的環境，換個環境就會變。
高遺傳率與「可被環境改善」並不矛盾（弗林效應、身高都是反例）。

能完成這個拆解，你對智力的理解就已經超越了絕大多數的日常迷思。

揮之不去的爭議：測驗公平嗎？

智力測驗從誕生起就伴隨爭議，而且這些爭議至今仍然真實存在，不能迴避。

文化偏誤（cultural bias）：早期智力測驗大量使用特定語言、特定文化背景的題目，對非主流群體不利。研究者因此發展出「文化公平測驗」（如瑞文氏推理測驗 Raven's Progressive Matrices，使用抽象圖形），但要做到完全「文化中立」極為困難，因為連「快速作答」「把測驗當回事」這些態度本身都帶有文化色彩。

刻板印象威脅（stereotype threat）：心理學家史提爾（Claude Steele）等人的研究顯示，當受測者意識到自己所屬群體背負某種負面刻板印象時，焦慮會干擾表現，使分數低於真實能力。這提醒我們：測驗情境本身會影響分數，分數不是在真空中產生的。

最重要的倫理界線：智力測驗的歷史上曾被嚴重濫用——用來支持優生學、合理化歧視性政策。這段歷史是警鐘。一個負責任的態度是：智力測驗在臨床診斷、教育安置、研究上有其價值，但分數永遠不該被用來給人貼上不可改變的標籤，更不該被用來論證群體間的優劣。比奈當年的提醒，今天依然適用。

重點回顧

g 因素源自「各種認知測驗彼此正相關」的穩固現象，是用因素分析萃取的統計構念，不是大腦裡的具體器官——別把統計因素當成實體。
CHC 理論以三層架構整合單一與多元觀點；其中流體智力（解新問題）會隨年齡下降，晶體智力（累積知識）則可維持或增長。
現代 IQ 是離差智商：平均 100、標準差 15 的常態分布，分數的意義來自「與同齡人比較」的相對位置，而非絕對量。
遺傳率高 ≠ 不可改變、≠ 個人命運；它是會隨環境變動的群體統計量。弗林效應證明智力深受環境形塑。
智力測驗存在文化偏誤與刻板印象威脅等真實爭議；分數有其用途，但絕不該成為貼標籤或論證群體優劣的工具。

深入探討（研究所視角）

若要把對智力的理解推進到研究層次，有幾條值得深入的脈絡。

g 的本質之爭：反映論 vs 形成論。 傳統觀點（反映性測量模型，reflective model）把 g 視為一個潛在的共同原因，「導致」各項能力的表現。但范德馬斯（Han van der Maas）等人提出的互利論模型（mutualism model）提供了截然不同的解釋：他們以動力系統模擬證明，即使一開始各認知能力彼此獨立、不存在任何共同的 g，只要這些能力在發展過程中互相促進（例如好的工作記憶幫助詞彙學習，詞彙又反過來幫助推理），長期下來就會自發地產生「正向流形」。換言之，g 可能是發展過程的結果（formative，形成性），而非先存的原因。這個爭論直接挑戰了「g 是大腦中單一機制」的假設，是當代智力理論的前沿。

神經機制的探索。 影像學研究提出頂額葉整合理論（P-FIT, Parieto-Frontal Integration Theory），主張個體智力差異與額葉、頂葉之間的網絡效率有關，而非單一腦區。相關的還有神經效率假說（neural efficiency hypothesis）——高智力者在解題時，相關腦區的代謝活動反而較低，暗示「用得更省」而非「用得更多」。但這些發現的效果量通常中等，且難以區分因果方向，仍需謹慎詮釋。

心理計量與測量哲學的反思。 智力研究是一個極佳的範例，讓我們思考「潛在構念」（latent construct）的本體論地位：當一個東西只能透過統計模型間接定義，它在多大程度上算「真實存在」？這牽涉到測量理論中關於建構效度（construct validity）的深層辯論。同時，現代研究越來越重視測量恆等性（measurement invariance）——一份測驗在不同群體間是否測到同樣的構念？若不恆等，跨群體比較分數就在比較蘋果與橘子，這正是公平性爭議的技術核心。

跨領域連結。 智力研究與多個領域交織：在教育學，它關乎資優與特殊教育的鑑定政策；在勞動經濟學，認知能力與終身所得的關聯是人力資本理論的重要變項；在認知老化研究中，流體與晶體智力的分流軌跡是理解失智早期徵兆的基礎；而隨著生成式 AI 興起，「機器智能與人類智力如何比較、又如何重新定義智力」更成為跨人工智慧與心理學的新興議題。當機器能輕易完成過去被視為高智力指標的任務時，我們對「智力」的定義本身或許也將被迫重寫。

對研究者而言，最值得帶走的一課或許是：智力不是一個等著被發現的客觀實體，而是一個持續被理論、測量工具與社會價值共同建構的概念。理解它的歷史與爭議，比記住任何一個分數都更接近科學的本質。

g 因素藏在哪個認知零件裡？智力的因素結構、認知化約與基因組學

--

3

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

為什麼有人數學差卻很會看人臉色？智力的理論、測量與爭議